هوش مصنوعی باهوش است، اما نه مثل انسان!
با وجود پیشرفتهای چشمگیر در حوزهی هوش مصنوعی، تازهترین پژوهش دانشگاه جانز هاپکینز نشان میدهد که این فناوری همچنان در درک تعاملات اجتماعی واقعی بین انسانها با چالشهای جدی روبهرو است.

به گزارش گروه رسانه ای شرق؛ مدلهای هوش مصنوعی در سالهای اخیر با سرعت چشمگیری پیشرفت کردهاند و در برخی زمینهها، از تولید کدهای پایه گرفته تا تسلط بر بازیهایی مانند شطرنج حتی از انسانها نیز عملکرد بهتری داشتهاند. اما با وجود قدرت پردازشی عظیم و سرمایهگذاری میلیارد دلاری، این مدلهای پیشرفته همچنان در درک واقعی از تعاملات انسانی در جهان واقعی با مشکل مواجهاند. به عبارت دیگر، هوش مصنوعی هنوز اساساً در «درک فضای حاکم بر موقعیت» ناتوان است.
این ادعایی است که در مقالهای جدید از پژوهشگران دانشگاه جانز هاپکینز مطرح شده است. در این پژوهش، گروهی از داوطلبان انسانی به تماشای کلیپهای ویدیویی سهثانیهای پرداختند و شیوههای مختلف تعامل افراد در این ویدیوها را ارزیابی کردند. سپس بیش از ۳۵۰ مدل هوش مصنوعی، شامل سیستمهای مبتنی بر تصویر، ویدیو و زبان مأمور شدند تا پیشبینی کنند که انسانها چگونه آن تعاملات را ارزیابی کردهاند. در حالی که انسانها بهآسانی از عهدهی این کار برآمدند، مدلهای هوش مصنوعی، صرفنظر از دادههای آموزشیشان، در تفسیر دقیق آنچه در کلیپها رخ میداد، با مشکل مواجه شدند. به گفتهی پژوهشگران، این یافتهها نشان میدهد که مدلهای هوش مصنوعی هنوز در درک نشانههای اجتماعی انسانی در محیطهای واقعی با دشواری جدی روبهرو هستند. این موضوع میتواند پیامدهای مهمی برای صنعت در حال رشد خودروهای خودران و رباتهای هوشمند داشته باشد؛ صنعتی که نیازمند تعامل مستقیم با انسانها در جهان فیزیکی است.
لیلا ایشیک، استادیار علوم شناختی در دانشگاه جانز هاپکینز و نویسندهی اصلی این مقاله در این باره گفت: «هر زمان که بخواهید یک سامانهی هوش مصنوعی با انسانها تعامل داشته باشد، باید بتواند درک کند که آن انسانها چه میکنند و گروههای انسانی چگونه با یکدیگر در ارتباطاند. این پژوهش واقعاً نشان میدهد که بسیاری از این مدلها در انجام چنین وظایفی کم میآورند.»
اگرچه پژوهشهای پیشین نشان دادهاند که مدلهای هوش مصنوعی میتوانند با دقتی همتراز با انسانها آنچه را در تصاویر ثابت رخ میدهد توصیف کنند، این پژوهش بررسی کرد که آیا این توانایی در ویدیوها نیز صادق است یا نه. به گفتهی ایشیک، او و همکارانش صدها ویدیو از یک پایگاه دادهی بینایی رایانهای انتخاب و آنها را به کلیپهای سهثانیهای تبدیل کردند. سپس این نمونهها به کلیپهایی محدود شدند که تنها شامل دو فرد در حال تعامل با یکدیگر بودند. داوطلبان انسانی این کلیپها را مشاهده کردند و به مجموعهای از پرسشها در مورد آنچه در حال وقوع بود پاسخ دادند، پرسشهایی که با مقیاسی از ۱ تا ۵ ارزیابی میشد. این پرسشها از موارد عینی مانند «آیا به نظر میرسد این دو بدن روبهروی هم قرار دارند؟» گرفته تا پرسشهای ذهنیتر مانند اینکه آیا تعامل عاطفی مثبت یا منفی دارد، متغیر بودند.
بهطور کلی، پاسخدهندگان انسانی تمایل داشتند پاسخهایی مشابه ارائه دهند که نشان میدهد انسانها درک مشترکی از تعاملات اجتماعی دارند. سپس پژوهشگران پرسشهایی مشابه را برای مدلهای تصویر، ویدیو و زبان مطرح کردند. (مدلهای زبانی بهجای ویدیوی خام، شرحنوشتههای انسانی را برای تحلیل دریافت کردند.) در همهی موارد، مدلهای هوش مصنوعی نتوانستند سطح اجماع انسانی را بازتولید کنند. مدلهای زبانی عموماً عملکرد بهتری نسبت به مدلهای تصویری و ویدیویی داشتند، اما ایشیک خاطرنشان میکند که این ممکن است تا حدی به این دلیل باشد که این مدلها داشتند شرحنوشتههایی از قبل توصیفی را تحلیل میکردند.
پژوهشگران عمدتاً مدلهای متنباز را بررسی کردند، برخی از آنها چند سال قدمت داشتند. در این پژوهش از جدیدترین مدلهایی که اخیراً توسط شرکتهایی چون OpenAI و Anthropic عرضه شدهاند، استفاده نشده بود. با این حال، تفاوت آشکار میان پاسخهای انسانی و هوش مصنوعی نشان میدهد که شاید نوعی تفاوت بنیادین میان شیوهی پردازش اطلاعات اجتماعی و زمینهای در انسان و مدلها وجود دارد.