دستکاری اطلاعات برای دستیابی به اهداف؛ آیا باید نگران باشیم؟
ظهور هوش مصنوعی فریبنده
مطالعات اخیر مواردی را نشان میدهد که سیستمهای هوش مصنوعی یاد میگیرند اطلاعات را دستکاری کنند و دیگران را فریب دهند. هوش مصنوعی خود را در جنبههای مختلف زندگی معاصر، از سادهسازی وظایف روزانه گرفته تا مقابله با مسائل پیچیده جهانی، جای داده است.
مریم مرامی-کارشناس ارشد علوم شناختی: مطالعات اخیر مواردی را نشان میدهد که سیستمهای هوش مصنوعی یاد میگیرند اطلاعات را دستکاری کنند و دیگران را فریب دهند. هوش مصنوعی خود را در جنبههای مختلف زندگی معاصر، از سادهسازی وظایف روزانه گرفته تا مقابله با مسائل پیچیده جهانی، جای داده است. با عمیقتر شدن ادغام هوش مصنوعی، نگرانیها درباره ظرفیت آن برای فریبدادن انسانها بزرگ میشود و بحثهایی را درباره پیامدهای آن برای آینده ما به راه میاندازد.
ماشینآلات و فریب: مفهوم هوش مصنوعی درگیر در فریب به مقاله مهم آلن تورینگ در سال ۱۹۵۰ بازمیگردد که بازی تقلید را معرفی کرد؛ آزمایشی که ارزیابی میکند آیا یک ماشین میتواند هوشی شبیه انسان از خود نشان دهد یا خیر. این مفهوم بنیادی از آن زمان تکامل یافته است و به توسعه سیستمهای هوش مصنوعی با هدف تقلید از پاسخهای انسانی شکل میدهد و اغلب مرزهای بین تعامل واقعی و تقلید فریبنده را محو میکند. چترباتهای اولیه این تمایل را با شبیهسازی دیالوگهای انسانمانند و هدایت ماهرانه تعاملات بدون آگاهی صریح شبیه انسان نشان دادند. تحقیقات اخیر مواردی از هوش مصنوعی را که فریب را به طور مستقل به کار میگیرد، مستند کرده است. برای مثال در سال گذشته، چتجیپیتی-4، یک مدل زبان پیشرفته، مشاهده شد که یک انسان را با تظاهر به اختلال بینایی برای فرار از CAPTCHA گمراه میکند، استراتژی که بهصراحت از طرف سازندگان آن برنامهریزی نشده است. بررسیها نشان میدهد که سیستمهای هوش مصنوعی یاد میگیرند اطلاعات را دستکاری کنند و دیگران را به طور سیستماتیک فریب دهند. پس از آنکه متا (مالک فیسبوک)، برنامهای به نام سیسرو (CICERO AI) را توسعه داد که در بازی استراتژی فتح جهان دیپلماسی در بین 10 درصد از بازیکنان برتر انسانی، بازی میکرد- محققان را به بررسی واداشت. متا اظهار کرد: «سیسرو به گونهای آموزش دیده بود که تا حد زیادی صادق و مفید باشد و هرگز عمدا به متحدان انسانیاش خنجر نزند». این ادبیاتِ بسیار پرزرقوبرق، درعینحال مشکوک بود، زیرا خنجرزدن از پشت، یکی از مهمترین مفاهیم بازی است. بررسیهای محققان نشان داد که سیسرو متا بر فریبکاری در بازیهای استراتژیک تسلط دارد و سیستمهای هوش مصنوعی خاصی را که از تستهای ایمنی پیشی میگیرند، برجسته میکند و روشهای ظریفی را نشان میدهد که در آن فریب هوش مصنوعی آشکار میشود. محققان نمونههای گستردهای از سیستمهای هوش مصنوعی را شناسایی کردند که به حریفان خود خیانت میکنند، بلوف میزنند و وانمود میکنند که انسان هستند. حتی یک سیستم، رفتار خود را در طول آزمایشهای ایمنی ساختگی، تغییر داد و احتمال فریبدادن حسابرسان به سمت احساس امنیت کاذب را افزایش داد. با پیشرفتهتر شدن قابلیتهای فریبنده سیستمهای هوش مصنوعی، خطراتی که برای جامعه ایجاد میکنند، جدیتر میشوند. این بسیار نگرانکننده است. فقط بهایندلیل که یک سیستم هوش مصنوعی در محیط آزمایش ایمن تلقی میشود، به این معنی نیست که در طبیعت ایمن است. این فقط میتواند تظاهر به ایمنبودن در آزمایش باشد. هیچکس به طور قطع نمیداند که چگونه میتوان مدلهایی ساخت که حقیقت را بگویند. با سطح فعلی درک علمی ما، هیچکس نمیتواند به طور قابل اعتمادی مدلهای زبان بزرگ را آموزش دهد که فریب ندهند. علاوهبراین بسیاری از مهندسان در بسیاری از شرکتها روی ایجاد مدلهای متفاوت و قدرتمندتر کار میکنند. همه علاقه اولیه یکسانی به صادقبودن رباتهایشان ندارند: بعضی از مهندسان خطر فریب هوش مصنوعی را بسیار جدی میگیرند، تا جایی که از اقدامات ایمنی هوش مصنوعی دفاع میکنند یا آن را اجرا میکنند. مهندسان دیگر آن را چندان جدی نمیگیرند و معتقدند که اعمال فرایند آزمون و خطا برای حرکت به سمت هوش مصنوعی ایمن و غیردروغ کافی است. و هنوز دیگرانی هستند که حتی نمیپذیرند که خطر فریب هوش مصنوعی وجود دارد. عواقب قابلیتهای فریبنده هوش مصنوعی فراتر از نگرانیهای فنی است و معضلات اخلاقی عمیق را تحت تأثیر قرار میدهد. موارد فریب هوش مصنوعی خطراتی از دستکاری بازار و مداخله انتخاباتی گرفته تا تصمیمات بهداشتی را به خطر میاندازد. چنین اقداماتی با پیامدهای بالقوه برای استقلال فردی و هنجارهای اجتماعی، زمینه اعتماد بین انسانها و فناوری را به چالش میکشد. از طرف دیگر، چالش مهمی در نحوه تعریف رفتارهای مطلوب و نامطلوب برای سیستمهای هوش مصنوعی وجود دارد. ویژگیهای مطلوب برای یک سیستم هوش مصنوعی اغلب بهعنوان صداقت، مفیدبودن و بیضرر بودن ذکر میشوند، اما این ویژگیها میتوانند در تضاد با یکدیگر باشند: صادقبودن ممکن است باعث آسیبرساندن به احساسات دیگران شود یا پاسخدادن به سؤالی درباره چگونگی ساخت بمب میتواند آسیبزا باشد، بنابراین فریب گاهی اوقات میتواند ویژگی مطلوب یک سیستم هوش مصنوعی باشد. در محیطهای درمانی، هوش مصنوعی ممکن است از فریب برای تقویت روحیه بیمار یا مدیریت شرایط روانی از طریق ارتباطات زیرکانه استفاده کند.
چگونه با فریب هوش مصنوعی مقابله کنیم: سیستمهای هوش مصنوعی درحالحاضر قادر به فریبدادن انسانها هستند. فریب، القای سیستماتیک باورهای نادرست در دیگران برای دستیابی به اهداف و نتایجی غیر از حقیقت است. توسعهدهندگان هوش مصنوعی از آنچه باعث رفتارهای نامطلوب هوش مصنوعی مانند فریب میشود، مطمئن نیستند، اما به طور کلی، فریب هوش مصنوعی بهایندلیل به وجود میآید که یک استراتژی مبتنی بر فریب بهترین راه برای عملکرد خوب در وظیفه آموزشی هوش مصنوعی است. فریب به آنها کمک میکند تا به اهداف خود برسند. مدلهای زبانی و دیگر سیستمهای هوش مصنوعی قبلً از طریق آموزش خود، توانایی فریبدادن از طریق تکنیکهایی مانند دستکاری، چاپلوسی و تقلب در تست ایمنی را آموختهاند. افزایش قابلیتهای هوش مصنوعی در فریب، خطرات جدی را شامل میشود، از خطرات کوتاهمدت، مانند تقلب و دستکاری در انتخابات، تا خطرات بلندمدت مانند ازدستدادن کنترل سیستمهای هوش مصنوعی. پرداختن به چالشهای ناشی از هوش مصنوعی فریبنده، نیازمند چارچوبهای نظارتی قوی است که شفافیت، مسئولیتپذیری و پایبندی اخلاقی را در اولویت قرار میدهد. توسعهدهندگان باید اطمینان حاصل کنند که سیستمهای هوش مصنوعی نهتنها مهارت فنی را نشان میدهند؛ بلکه با ارزشهای اجتماعی همخوانی دارند. ترکیب دیدگاههای بینرشتهای متنوع در توسعه هوش مصنوعی میتواند طراحی اخلاقی را بهبود ببخشد و سوءاستفاده احتمالی را کاهش دهد. همکاری جهانی بین دولتها، شرکتها و جامعه مدنی برای ایجاد و اجرای هنجارهای بینالمللی برای توسعه و استفاده از هوش مصنوعی ضروری است. این همکاری باید شامل ارزیابی مستمر، اقدامات نظارتی تطبیقی و تعامل فعال با فناوریهای هوش مصنوعی در حال ظهور باشد. حفاظت از تأثیر مثبت هوش مصنوعی بر رفاه اجتماعی و درعینحال رعایت استانداردهای اخلاقی مستلزم هوشیاری مداوم و راهبردهای انطباقی است. سیر تکامل هوش مصنوعی از یک جنبه جدید به جنبهای ضروری از وجود انسان، هم چالشها و هم فرصتها را به همراه دارد. با پیمایش مسئولانه در این چالشها، میتوانیم از پتانسیل کامل هوش مصنوعی بهره ببریم و درعینحال از اصول اساسی اعتماد و یکپارچگی که زیربنای جامعه ما هستند، محافظت کنیم.