|

هوش مصنوعی باهوش است، اما نه مثل انسان!

با وجود پیشرفت‌های چشم‌گیر در حوزه‌ی هوش مصنوعی، تازه‌ترین پژوهش دانشگاه جانز هاپکینز نشان می‌دهد که این فناوری همچنان در درک تعاملات اجتماعی واقعی بین انسان‌ها با چالش‌های جدی روبه‌رو است.

هوش مصنوعی باهوش است، اما نه مثل انسان!

به گزارش گروه رسانه ای شرق؛ مدل‌های هوش مصنوعی در سال‌های اخیر با سرعت چشم‌گیری پیشرفت کرده‌اند و در برخی زمینه‌ها، از تولید کدهای پایه گرفته تا تسلط بر بازی‌هایی مانند شطرنج حتی از انسان‌ها نیز عملکرد بهتری داشته‌اند. اما با وجود قدرت پردازشی عظیم و سرمایه‌گذاری میلیارد دلاری، این مدل‌های پیشرفته همچنان در درک واقعی از تعاملات انسانی در جهان واقعی با مشکل مواجه‌اند. به عبارت دیگر، هوش مصنوعی هنوز اساساً در «درک فضای حاکم بر موقعیت» ناتوان است.

این ادعایی است که در مقاله‌ای جدید از پژوهشگران دانشگاه جانز هاپکینز مطرح شده است. در این پژوهش، گروهی از داوطلبان انسانی به تماشای کلیپ‌های ویدیویی سه‌ثانیه‌ای پرداختند و شیوه‌های مختلف تعامل افراد در این ویدیوها را ارزیابی کردند. سپس بیش از ۳۵۰ مدل هوش مصنوعی، شامل سیستم‌های مبتنی بر تصویر، ویدیو و زبان مأمور شدند تا پیش‌بینی کنند که انسان‌ها چگونه آن تعاملات را ارزیابی کرده‌اند. در حالی که انسان‌ها به‌آسانی از عهده‌ی این کار برآمدند، مدل‌های هوش مصنوعی، صرف‌نظر از داده‌های آموزشی‌شان، در تفسیر دقیق آنچه در کلیپ‌ها رخ می‌داد، با مشکل مواجه شدند. به گفته‌ی پژوهشگران، این یافته‌ها نشان می‌دهد که مدل‌های هوش مصنوعی هنوز در درک نشانه‌های اجتماعی انسانی در محیط‌های واقعی با دشواری جدی روبه‌رو هستند. این موضوع می‌تواند پیامدهای مهمی برای صنعت در حال رشد خودروهای خودران و ربات‌های هوشمند داشته باشد؛ صنعتی که نیازمند تعامل مستقیم با انسان‌ها در جهان فیزیکی است.

لیلا ایشیک، استادیار علوم شناختی در دانشگاه جانز هاپکینز و نویسنده‌ی اصلی این مقاله در این باره گفت: «هر زمان که بخواهید یک سامانه‌ی هوش مصنوعی با انسان‌ها تعامل داشته باشد، باید بتواند درک کند که آن انسان‌ها چه می‌کنند و گروه‌های انسانی چگونه با یکدیگر در ارتباط‌اند. این پژوهش واقعاً نشان می‌دهد که بسیاری از این مدل‌ها در انجام چنین وظایفی کم می‌آورند.»

اگرچه پژوهش‌های پیشین نشان داده‌اند که مدل‌های هوش مصنوعی می‌توانند با دقتی هم‌تراز با انسان‌ها آنچه را در تصاویر ثابت رخ می‌دهد توصیف کنند، این پژوهش بررسی کرد که آیا این توانایی در ویدیوها نیز صادق است یا نه. به گفته‌ی ایشیک، او و همکارانش صدها ویدیو از یک پایگاه داده‌ی بینایی رایانه‌ای انتخاب و آن‌ها را به کلیپ‌های سه‌ثانیه‌ای تبدیل کردند. سپس این نمونه‌ها به کلیپ‌هایی محدود شدند که تنها شامل دو فرد در حال تعامل با یکدیگر بودند. داوطلبان انسانی این کلیپ‌ها را مشاهده کردند و به مجموعه‌ای از پرسش‌ها در مورد آنچه در حال وقوع بود پاسخ دادند، پرسش‌هایی که با مقیاسی از ۱ تا ۵ ارزیابی می‌شد. این پرسش‌ها از موارد عینی مانند «آیا به نظر می‌رسد این دو بدن روبه‌روی هم قرار دارند؟» گرفته تا پرسش‌های ذهنی‌تر مانند این‌که آیا تعامل عاطفی مثبت یا منفی دارد، متغیر بودند.

به‌طور کلی، پاسخ‌دهندگان انسانی تمایل داشتند پاسخ‌هایی مشابه ارائه دهند که نشان می‌دهد انسان‌ها درک مشترکی از تعاملات اجتماعی دارند. سپس پژوهشگران پرسش‌هایی مشابه را برای مدل‌های تصویر، ویدیو و زبان مطرح کردند. (مدل‌های زبانی به‌جای ویدیوی خام، شرح‌نوشته‌های انسانی را برای تحلیل دریافت کردند.) در همه‌ی موارد، مدل‌های هوش مصنوعی نتوانستند سطح اجماع انسانی را بازتولید کنند. مدل‌های زبانی عموماً عملکرد بهتری نسبت به مدل‌های تصویری و ویدیویی داشتند، اما ایشیک خاطرنشان می‌کند که این ممکن است تا حدی به این دلیل باشد که این مدل‌ها داشتند شرح‌نوشته‌هایی از قبل توصیفی را تحلیل می‌کردند.

پژوهشگران عمدتاً مدل‌های متن‌باز را بررسی کردند، برخی از آن‌ها چند سال قدمت داشتند. در این پژوهش از جدیدترین مدل‌هایی که اخیراً توسط شرکت‌هایی چون OpenAI و Anthropic عرضه شده‌اند، استفاده نشده بود. با این حال، تفاوت آشکار میان پاسخ‌های انسانی و هوش مصنوعی نشان می‌دهد که شاید نوعی تفاوت بنیادین میان شیوه‌ی پردازش اطلاعات اجتماعی و زمینه‌ای در انسان و مدل‌ها وجود دارد.

 

منبع: خبر آنلاین