هوش مصنوعی چه موقع تقلب می کند؟
محققان دریافتند وقتی هوش مصنوعی قدرتمند میبیند دارد در بازی شکست میخورد، تصمیم میگیرد با تقلب پیروز شود.

به گزارش گروه رسانه ای شرق،محققان در پژوهش جدیدی پتانسیل تقلب در هوش مصنوعی را بررسی کردند. آنها دریافتند وقتی مدلهای قدرتمند میبینند دارند در بازی شکست میخورند، تصمیم میگیرند با تقلب پیروز شوند. این مدلها میتوانند بهتنهایی نقاط ضعف امنیت سایبری سیستم را پیدا و از آنها استفاده کنند.
براساس گزارش TIME، در پژوهش اخیر Palisade Research، گروهی تحقیقاتی که ایمنی و اخلاق هوش مصنوعی را بررسی میکنند، موضوع نگرانکنندهای را آشکار کردند. آنها 7 مدل از برترین مدلهای زبانی بزرگ (LLM) را در برابر Stockfish، سیستم شطرنجباز بسیار قدرتمندی که از سال 2014 استادان بزرگ شطرنج را به چالش کشیده است، قرار دادند. 2 مدل استدلالگر o1 از OpenAI و R1 دیپسیک وقتی در موقعیت شکست قرار میگرفتند؛ چون مصمم به پیروزی بودند، فایلهای سیستم را دستکاری میکردند تا موقعیت مهرههای خود را روی تخته تغییر دهند.
تقلب مدلهای هوش مصنوعی قدرتمند
محققان به مدلهای مختلف هوش مصنوعی وظیفهای تقریباً غیرممکن دادند: پیروزی در برابر Stockfish که یکی از قویترین موتورهای شطرنج جهان است و از بسیاری انسانها یا مدلهای هوش مصنوعی بهتر شطرنج بازی میکند. محققان همچنین به مدلها Scratchpad دادند، باکسی متنی که هوش مصنوعی میتوانست از آن برای «فکرکردن» قبل از انجام حرکت بعدی خود استفاده کند و محققان هم میدیدند هوش مصنوعی چگونه با خودش استدلال میکند.
در یک مورد، مدل o1-preview وقتی خود را در موقعیت بازنده دید، با خودش استدلال کرد:«من باید رویکرد خود را کاملاً تغییر دهم. وظیفه من برنده شدن در برابر موتور قدرتمند شطرنج است، نه لزوماً برنده شدن منصفانه در بازی شطرنج.»
سپس این هوش مصنوعی با تقلب موقعیت مهرهها را اصلاح کرد، حرکات غیرقانونی انجام داد تا خود را در موقعیت بهتری قرار دهد و حریف خود را مجبور به ترک بازی کرد. محققان صدها آزمایش از این دست را با هر مدل انجام دادند. مدل o1 در 37 درصد مواقع سعی داشت تقلب کند که در 6 درصد مواقع موفق شد سیستم را هک کند. مدل R1 دیپسیک نیز در 11 درصد مواقع سعی کرد تقلب کند ولی موفق نشد سیستم را هک کند تا پیروز مسابقه شود.
سرپرست این پژوهش در Palisade Research میگوید مدلهای استدلالگر جدیدتر مانند o3-mini اصلاً حریف مقابل را هک نکردند که نشان میدهد OpenAI نردههای امنیتی آن را بلندتر ساخته است. همچنین محققان میگویند درصدهای بهدستآمده رقم نهایی نیستند؛ چون سازندگان هوش مصنوعی دائم مدلهای خود را تغییر میدهند و ممکن است در آزمایشهای بعدی این ارقام تغییر کنند. همچنین محققان میگویند هنگام انجام آزمایشها، مدل R1 بسیار وایرال شد و API این مدل عملکرد ناپایداری داشت و همین امر شاید روی نتایج تأثیر گذاشته باشد و نباید مدل چینیها را در تقلب دستکم گرفت.
محققان همچنین از مدلهای دیگر مانند GPT-4o ،Claude 3.5 Sonnet و QwQ-32B-Preview استفاده کردند اما برخلاف R1 و o1-preview، مدلهای دیگر خودشان تقلب نمیکردند و باید محققان آنها را ترغیب به این کار میکردند.