بحران دادهها در صنعت هوش مصنوعی: آیا چالشهای جدید راه پیشرفت را سد میکنند؟
در سالهای اخیر، صنعت هوش مصنوعی شاهد پیشرفتهای شگرفی بوده است که ناشی از استفاده بیسابقه از دادههای دیجیتال است. اما اکنون در آستانه یک چالش بزرگ قرار داریم؛ کمبود دادههای جدید برای آموزش مدلهای پیچیده هوش مصنوعی.
در سالهای اخیر، صنعت هوش مصنوعی شاهد پیشرفتهای شگرفی بوده است که ناشی از استفاده بیسابقه از دادههای دیجیتال است. اما اکنون در آستانه یک چالش بزرگ قرار داریم؛ کمبود دادههای جدید برای آموزش مدلهای پیچیده هوش مصنوعی. آیا این بدان معناست که سرعت پیشرفت در این حوزه کاهش خواهد یافت؟ دکتر دمیس حسابیس، یکی از بزرگترین کارشناسان هوش مصنوعی، به این پرسش پاسخ میدهد و به چالشهای روبهرو با آینده این فناوری اشاره میکند. در این گزارش، به بررسی بحران پیش روی صنعت هوش مصنوعی و راهکارهایی که برای مواجهه با آن در نظر گرفته شده، خواهیم پرداخت.
شرکتهایی مانند OpenAI و Google که در زمینه توسعه هوش مصنوعی فعالیت دارند، به زودی با کمبود دادههایی که برای آموزش مدلهای هوش مصنوعی خود استفاده میکنند، مواجه خواهند شد. آیا روشهای جدید میتوانند روند سریع پیشرفتهای سالهای اخیر را ادامه دهند؟ دمیس حسابیس، یکی از تأثیرگذارترین کارشناسان هوش مصنوعی در جهان، به فعالان صنعت فناوری هشدار میدهد: «انتظار نداشته باشید که چتباتها همچنان به سرعتی که در چند سال اخیر توسعه یافتهاند، پیشرفت کنند.»
مدتی است که محققان هوش مصنوعی برای بهبود سیستمهای خود از یک مفهوم ساده استفاده میکنند: هرچه دادههای بیشتری از اینترنت به مدلهای زبانی بزرگ (تکنولوژی پشت چتباتها) وارد میشود، عملکرد این سیستمها بهتر میشود. اما دکتر حسابیس که مسئول Google DeepMind، آزمایشگاه اصلی هوش مصنوعی گوگل است، میگوید که روشی که برای آموزش سیستمهای هوش مصنوعی استفاده میشد، دیگر کارایی ندارد چون دادههای مورد نیاز برای اجرای آن روش تمام یا محدود شدهاند.
او گفت: «همه در صنعت شاهد کاهش بازدهی هستند.» این جمله را دکتر حسابیس این ماه در مصاحبهای با نیویورک تایمز بیان کرد، در حالی که آماده دریافت جایزه نوبل برای کارهایش در زمینه هوش مصنوعی بود. دکتر حسابیس تنها کارشناس هوش مصنوعی نیست که نسبت به کندی روند پیشرفت هشدار میدهد. مصاحبه با 20 مدیر اجرایی و محقق نشان داد که بسیاری از کارشناسان باور دارند که صنعت فناوری با مشکلی روبهرو شده که بسیاری آن را غیرقابل تصور میدانستند. شرکتها یا محققان برای آموزش سیستمهای هوش مصنوعی از حجم زیادی از اطلاعات و دادههای متنی که در اینترنت در دسترس است، استفاده کردهاند.
این مشکل در حالی بروز میکند که همچنان میلیاردها دلار برای توسعه هوش مصنوعی صرف میشود. روز سهشنبه، Databricks، یک شرکت داده هوش مصنوعی، اعلام کرد که در حال نزدیک شدن به جذب 10 میلیارد دلار سرمایه است؛ بزرگترین دور تأمین مالی خصوصی برای یک استارتاپ. همچنین بزرگترین شرکتهای فناوری اعلام کردهاند که هیچ برنامهای برای کاهش هزینهها برای ساخت مراکز داده بزرگ که سیستمهای هوش مصنوعی را اجرا میکنند، ندارند.
اما همه در دنیای هوش مصنوعی نگران نیستند. برخی افراد مانند مدیرعامل OpenAI، سام آلتمن، میگویند که پیشرفتها با همان سرعت ادامه خواهد یافت، البته با تغییراتی در تکنیکهای قدیمی. داریو آمودی، مدیرعامل استارتاپ هوش مصنوعی Anthropic و جنسن هوانگ، مدیرعامل Nvidia، نیز در این رابطه خوشبین هستند.
ریشههای این بحث به سال 2020 برمیگردد، زمانی که جارد کاپلان، فیزیکدان نظری دانشگاه جانز هاپکینز، مقالهای منتشر کرد که نشان میداد مدلهای زبانی بزرگ با تحلیل بیشتر دادهها، قویتر و واقعیتر میشوند. محققان، این یافتههای دکتر کاپلان را «قوانین مقیاس» نامیدند. مشابه اینکه دانشآموزان با خواندن کتابهای بیشتر، بیشتر یاد میگیرند، سیستمهای هوش مصنوعی با پردازش حجم بیشتری از متنهای دیجیتال که از اینترنت جمعآوری شدهاند، شامل مقالات خبری، لاگهای چت و برنامههای کامپیوتری، بهبود مییابند. با دیدن قدرت این پدیده، شرکتهایی مانند OpenAI، Google و Meta به سرعت تلاش کردند تا بیشترین دادههای اینترنتی را به دست آورند، حتی با شکستن قوانین شرکتی و بحث درباره اینکه آیا باید قوانین را دور بزنند یا نه.
این معادل مدرن قانون مور است، قانون معروفی که در دهه 1960 توسط بنیانگذار اینتل، گوردون مور، مطرح شد. او نشان داد که تعداد ترانزیستورها در یک تراشه سیلیکونی هر دو سال تقریباً دو برابر میشود که به طور پیوسته قدرت رایانههای جهان را افزایش میدهد. قانون مور برای 40 سال پابرجا بود، اما در نهایت کند شد.
قوانین علمی یا اصولی که در مورد بهبود سیستمهای هوش مصنوعی (مثل قوانین مقیاس یا قانون مور) وجود دارند، قوانین ثابت و تغییرناپذیر نیستند. این قوانین صرفاً مشاهدات هوشمندانهای هستند که ممکن است برای مدتی درست باشند، اما لزوماً در آینده نیز ادامه یابند یا تغییرات جدیدی در آنها رخ دهد. بنابراین، برخلاف آنچه که تصور میشود، این اصول ممکن است در بلندمدت با چالشهایی مواجه شوند و دیگر نتایج مشابهی نداشته باشند.
دکتر حسابیس گفت: «در سه یا چهار سال گذشته بازدهیهای فوقالعادهای مشاهده شد، اما اکنون دیگر پیشرفتهای مشابهی حاصل نمیشود.» او افزود که تکنیکهای موجود همچنان در برخی جهات هوش مصنوعی را بهبود خواهند داد، اما به اعتقاد او ایدههای کاملاً جدید برای رسیدن به هدفی که گوگل و بسیاری دیگر در پی آن هستند، لازم است: «ماشینی که بتواند قدرت مغز انسان را تطبیق کند.»
دکتر حسابیس و دیگران در حال بررسی رویکردهای جدید هستند. آنها در حال توسعه روشهایی هستند که مدلهای زبانی بزرگ از طریق تجربه و خطا یاد بگیرند. به عنوان مثال، با حل مسائل ریاضی، مدلها میتوانند یاد بگیرند که کدام روشها به جواب درست منتهی میشود و کدامیک نه. در واقع، مدلها روی دادههایی که خودشان تولید میکنند، آموزش میبینند.
OpenAI اخیراً یک سیستم جدید به نام OpenAI o1 منتشر کرده است که به این روش ساخته شده است. اما این روش تنها در زمینههایی مانند ریاضیات و برنامهنویسی کامپیوتری که تمایز قاطعی بین درست و غلط وجود دارد، کار میکند. حتی در این زمینهها، سیستمهای هوش مصنوعی ممکن است اشتباه کنند. این موضوع میتواند تلاشها برای ساخت «نمایندگان» هوش مصنوعی که میتوانند برنامههای کامپیوتری خود را بنویسند و اقدامات مختلفی انجام دهند را دچار مشکل کند.
با وجود تمام نوآوریها و سرمایهگذاریهای عظیم در صنعت هوش مصنوعی، بحران کمبود دادهها به یکی از بزرگترین چالشهای پیش رو تبدیل شده است. روشهای سنتی که بر اساس افزایش دادهها ساخته شدهاند، دیگر کارایی لازم را ندارند و برای ادامه پیشرفت، باید به دنبال رویکردهای جدیدتر و خلاقانهتر باشیم. حتی پیشرفتهای جدیدی مانند مدلهای یادگیری از تجربه و خطا نیز تنها در برخی زمینهها مؤثر هستند و هنوز راه زیادی برای تحقق هدف نهایی که تطابق قدرت مغز انسان با ماشینها باشد، باقی مانده است. آینده صنعت هوش مصنوعی نه تنها به دست آوردن دادههای جدید، بلکه به توانایی خلاقانه صنعتگران در یافتن راهحلهای نوین بستگی دارد.