|

بحران داده‌ها در صنعت هوش مصنوعی: آیا چالش‌های جدید راه پیشرفت را سد می‌کنند؟

در سال‌های اخیر، صنعت هوش مصنوعی شاهد پیشرفت‌های شگرفی بوده است که ناشی از استفاده بی‌سابقه از داده‌های دیجیتال است. اما اکنون در آستانه یک چالش بزرگ قرار داریم؛ کمبود داده‌های جدید برای آموزش مدل‌های پیچیده هوش مصنوعی.

بحران داده‌ها در صنعت هوش مصنوعی: آیا چالش‌های جدید راه پیشرفت را سد می‌کنند؟

در سال‌های اخیر، صنعت هوش مصنوعی شاهد پیشرفت‌های شگرفی بوده است که ناشی از استفاده بی‌سابقه از داده‌های دیجیتال است. اما اکنون در آستانه یک چالش بزرگ قرار داریم؛ کمبود داده‌های جدید برای آموزش مدل‌های پیچیده هوش مصنوعی. آیا این بدان معناست که سرعت پیشرفت در این حوزه کاهش خواهد یافت؟ دکتر دمیس حسابیس، یکی از بزرگ‌ترین کارشناسان هوش مصنوعی، به این پرسش پاسخ می‌دهد و به چالش‌های روبه‌رو با آینده این فناوری اشاره می‌کند. در این گزارش، به بررسی بحران پیش روی صنعت هوش مصنوعی و راهکارهایی که برای مواجهه با آن در نظر گرفته شده، خواهیم پرداخت.

شرکت‌هایی مانند OpenAI و  Google که در زمینه توسعه هوش مصنوعی فعالیت دارند، به زودی با کمبود داده‌هایی که برای آموزش مدل‌های هوش مصنوعی خود استفاده می‌کنند، مواجه خواهند شد.  آیا روش‌های جدید می‌توانند روند سریع پیشرفت‌های سال‌های اخیر را ادامه دهند؟ دمیس حسابیس، یکی از تأثیرگذارترین کارشناسان هوش مصنوعی در جهان، به فعالان صنعت فناوری هشدار می‌دهد: «انتظار نداشته باشید که چت‌بات‌ها همچنان به سرعتی که در چند سال اخیر توسعه یافته‌اند، پیشرفت کنند.»

مدتی است که محققان هوش مصنوعی برای بهبود سیستم‌های خود از یک مفهوم ساده استفاده می‌کنند: هرچه داده‌های بیشتری از اینترنت به مدل‌های زبانی بزرگ (تکنولوژی پشت چت‌بات‌ها) وارد می‌شود، عملکرد این سیستم‌ها بهتر می‌شود. اما دکتر حسابیس که مسئول  Google DeepMind، آزمایشگاه اصلی هوش مصنوعی گوگل است، می‌گوید که روشی که برای آموزش سیستم‌های هوش مصنوعی استفاده می‌شد، دیگر کارایی ندارد چون داده‌های مورد نیاز برای اجرای آن روش تمام یا محدود شده‌اند.

او گفت: «همه در صنعت شاهد کاهش بازدهی هستند.» این جمله را دکتر حسابیس این ماه در مصاحبه‌ای با نیویورک تایمز بیان کرد، در حالی که آماده دریافت جایزه نوبل برای کارهایش در زمینه هوش مصنوعی بود. دکتر حسابیس تنها کارشناس هوش مصنوعی نیست که نسبت به کندی روند پیشرفت هشدار می‌دهد. مصاحبه با 20 مدیر اجرایی و محقق نشان داد که بسیاری از کارشناسان باور دارند که صنعت فناوری با مشکلی روبه‌رو شده که بسیاری آن را غیرقابل تصور می‌دانستند. شرکت‌ها یا محققان برای آموزش سیستم‌های هوش مصنوعی از حجم زیادی از اطلاعات و داده‌های متنی که در اینترنت در دسترس است، استفاده کرده‌اند.

این مشکل در حالی بروز می‌کند که همچنان میلیاردها دلار برای توسعه هوش مصنوعی صرف می‌شود. روز سه‌شنبه، Databricks، یک شرکت داده هوش مصنوعی، اعلام کرد که در حال نزدیک شدن به جذب 10 میلیارد دلار سرمایه است؛ بزرگ‌ترین دور تأمین مالی خصوصی برای یک استارتاپ. همچنین بزرگ‌ترین شرکت‌های فناوری اعلام کرده‌اند که هیچ برنامه‌ای برای کاهش هزینه‌ها برای ساخت مراکز داده بزرگ که سیستم‌های هوش مصنوعی را اجرا می‌کنند، ندارند.

 اما همه در دنیای هوش مصنوعی نگران نیستند. برخی افراد مانند مدیرعامل  OpenAI، سام آلتمن، می‌گویند که پیشرفت‌ها با همان سرعت ادامه خواهد یافت، البته با تغییراتی در تکنیک‌های قدیمی. داریو آمودی، مدیرعامل استارتاپ هوش مصنوعی  Anthropic و جنسن هوانگ، مدیرعامل  Nvidia، نیز در این رابطه خوش‌بین هستند.

ریشه‌های این بحث به سال 2020 برمی‌گردد، زمانی که جارد کاپلان، فیزیکدان نظری دانشگاه جانز هاپکینز، مقاله‌ای منتشر کرد که نشان می‌داد مدل‌های زبانی بزرگ با تحلیل بیشتر داده‌ها، قوی‌تر و واقعی‌تر می‌شوند. محققان، این یافته‌های دکتر کاپلان را «قوانین مقیاس» نامیدند. مشابه اینکه دانش‌آموزان با خواندن کتاب‌های بیشتر، بیشتر یاد می‌گیرند، سیستم‌های هوش مصنوعی با پردازش حجم بیشتری از متن‌های دیجیتال که از اینترنت جمع‌آوری شده‌اند، شامل مقالات خبری، لاگ‌های چت و برنامه‌های کامپیوتری، بهبود می‌یابند. با دیدن قدرت این پدیده، شرکت‌هایی مانند  OpenAI، Google  و Meta به سرعت تلاش کردند تا بیشترین داده‌های اینترنتی را به دست آورند، حتی با شکستن قوانین شرکتی و بحث درباره اینکه آیا باید قوانین را دور بزنند یا نه.

این معادل مدرن قانون مور است، قانون معروفی که در دهه 1960 توسط بنیان‌گذار اینتل، گوردون مور، مطرح شد. او نشان داد که تعداد ترانزیستورها در یک تراشه سیلیکونی هر دو سال تقریباً دو برابر می‌شود که به طور پیوسته قدرت رایانه‌های جهان را افزایش می‌دهد. قانون مور برای 40 سال پابرجا بود، اما در نهایت کند شد.

قوانین علمی یا اصولی که در مورد بهبود سیستم‌های هوش مصنوعی (مثل قوانین مقیاس یا قانون مور) وجود دارند، قوانین ثابت و تغییرناپذیر نیستند. این قوانین صرفاً مشاهدات هوشمندانه‌ای هستند که ممکن است برای مدتی درست باشند، اما لزوماً در آینده نیز ادامه یابند یا تغییرات جدیدی در آن‌ها رخ دهد. بنابراین، برخلاف آنچه که تصور می‌شود، این اصول ممکن است در بلندمدت با چالش‌هایی مواجه شوند و دیگر نتایج مشابهی نداشته باشند.

دکتر حسابیس گفت: «در سه یا چهار سال گذشته بازدهی‌های فوق‌العاده‌ای مشاهده شد، اما اکنون دیگر پیشرفت‌های مشابهی حاصل نمی‌شود.» او افزود که تکنیک‌های موجود همچنان در برخی جهات هوش مصنوعی را بهبود خواهند داد، اما به اعتقاد او ایده‌های کاملاً جدید برای رسیدن به هدفی که گوگل و بسیاری دیگر در پی آن هستند، لازم است: «ماشینی که بتواند قدرت مغز انسان را تطبیق کند.»

دکتر حسابیس و دیگران در حال بررسی رویکردهای جدید هستند. آن‌ها در حال توسعه روش‌هایی هستند که مدل‌های زبانی بزرگ از طریق تجربه و خطا یاد بگیرند. به عنوان مثال، با حل مسائل ریاضی، مدل‌ها می‌توانند یاد بگیرند که کدام روش‌ها به جواب درست منتهی می‌شود و کدام‌یک نه. در واقع، مدل‌ها روی داده‌هایی که خودشان تولید می‌کنند، آموزش می‌بینند.

OpenAI اخیراً یک سیستم جدید به نام OpenAI o1 منتشر کرده است که به این روش ساخته شده است. اما این روش تنها در زمینه‌هایی مانند ریاضیات و برنامه‌نویسی کامپیوتری که تمایز قاطعی بین درست و غلط وجود دارد، کار می‌کند. حتی در این زمینه‌ها، سیستم‌های هوش مصنوعی ممکن است اشتباه کنند. این موضوع می‌تواند تلاش‌ها برای ساخت «نمایندگان» هوش مصنوعی که می‌توانند برنامه‌های کامپیوتری خود را بنویسند و اقدامات مختلفی انجام دهند را دچار مشکل کند.

با وجود تمام نوآوری‌ها و سرمایه‌گذاری‌های عظیم در صنعت هوش مصنوعی، بحران کمبود داده‌ها به یکی از بزرگ‌ترین چالش‌های پیش رو تبدیل شده است. روش‌های سنتی که بر اساس افزایش داده‌ها ساخته شده‌اند، دیگر کارایی لازم را ندارند و برای ادامه پیشرفت، باید به دنبال رویکردهای جدیدتر و خلاقانه‌تر باشیم. حتی پیشرفت‌های جدیدی مانند مدل‌های یادگیری از تجربه و خطا نیز تنها در برخی زمینه‌ها مؤثر هستند و هنوز راه زیادی برای تحقق هدف نهایی که تطابق قدرت مغز انسان با ماشین‌ها باشد، باقی مانده است. آینده صنعت هوش مصنوعی نه تنها به دست آوردن داده‌های جدید، بلکه به توانایی خلاقانه صنعتگران در یافتن راه‌حل‌های نوین بستگی دارد.