چرا باید نسبت به هک OpenAI نگران بود؟
هک شرکت OpenAI به همه یادآوری کرد که شرکتهای هوش مصنوعی به چشم هکرها همچون گنج هستند. اما این شرکتها چه دادههایی دارند که آنها را آنقدر برای هکرها ارزشمند میکند؟
اگرچه هک OpenAI سطحی بوده، اما نگرانکننده است و یادآور این است که شرکتهای هوش مصنوعی در کوتاهمدت خود را به یکی از جذابترین اهداف برای هکرها تبدیل کردهاند. لئوپولد اشنبرنر، کارمند سابق OpenAI اخیراً جزئیات بیشتری در مورد این هک فاش کرده است. او این اتفاق را یک «حادثه امنیتی بزرگ» نامیده است. افراد ناشناس دیگری از این شرکت به تایمز گفتهاند که هکر به اطلاعات کمی دست یافته است.
البته هیچ نقض امنیتی واقعاً نباید بیاهمیت تلقی شود و شنود صحبتهای کارمندان OpenAI در مورد توسعه شرکت قطعاً اهمیت دارد. با این حال دسترسی یک هکر به سیستمهای داخلی، مدلهای در حال پیشرفت، نقشههای راه مخفی و غیره بسیار سخت است و غیرممکن به نظر میرسد.
اما به هر حال این اتفاق باید ما را بترساند؛ زیرا واقعیت این است که این شرکتهای هوش مصنوعی به پایگاه عظیمی از دادههای بسیار ارزشمند تبدیل شدهاند.
شرکتهای هوش مصنوعی مانند OpenAI به سه نوع داده دسترسی دارند: دادههای آموزشی با کیفیت بالا، تعاملات کاربر انبوه و دادههای مشتری. البته نوع دادههای آموزشی آنها دقیقاً مشخص نیست؛ زیرا شرکتها در مورد مخزنهای داده خود بسیار محافظهکار هستند. اما نباید فکر کنیم که این داده فقط دادههای جمعآوری شده از وب هستند. درست است که آنها از صفحات وب استفاده میکنند؛ اما شکل دادن به دادههای خام و تبدیل آنها به منبع آموزشی مدلهای بزرگ زبانی، کار دشواری است. این کار به تلاش و زحمت زیادی نیاز دارد و ساعتهای طولانی باید صرف آموزش مدلها شود.
برخی از مهندسان یادگیری ماشین حدس میزنند که از میان تمام عواملی که در ایجاد یک مدل زبانی بزرگ نقش دارند، کیفیت داده مهمترین آنها است. به همین دلیل است که مدلی که در توییتر و ردیت آموزش دیده باشد هرگز به اندازه مدلی با تمام دادههای یک قرن گذشته آموزش داده شده، گویا نخواهند بود. این مسئله توضیح میدهد که چرا OpenAI از منابع قانونی مشکوک، مانند کتابهای دارای حق چاپ، در دادههای آموزشی خود استفاده میکند؛ رویهای که ادعا میکنند آن را متوقف کردهاند. بنابراین مجموعه دادههای آموزشی که OpenAI ساخته است، برای رقبا، از شرکتهای دیگر گرفته تا دولتهای مخالف و تنظیمکنندهها در ایالات متحده، ارزش فوقالعادهای دارد.
اما احتمالاً گنجینههای ارزشمندتری هم وجود داشته باشد. دادههای کاربران OpenAI شاید حتی ارزشمندتر از دادههای آموزشی آن باشند. میلیاردها مکالمه با صدها هزار موضوع در چت جیپیتی وجود دارد. جت چیپیتی با این دادههای حتی بینش عمیقتری از کاربران حتی نسبت به گوگل ارائه میدهد.
برای مثال، وقتی نتایج جستجو گوگل را برای «کولر» مشاهده میکنید در واقع چیزی که میبینید میزان علاقه بازار و مردم به این وسیله است. در این نتایج مواردی چون ترجیحات کاربران، بودجه، شرایط خانه یا ترجیحات سازنده نشان داده نمیشود. این دادهها ارزشمند هستند. به همین دلیل است که گوگل تلاش میکند تا جستجوها را با تعاملات هوش مصنوعی جایگزین کند تا چنین اطلاعات عمیقی را جمعآوری کند. به این فکر کنید که مردم چقدر گفتگو با ChatGPT داشتهاند و چقدر این اطلاعات مفید است، نه فقط برای توسعهدهندگان هوش مصنوعی، بلکه برای تیمهای بازاریابی، مشاوران، تحلیلگران... این یک معدن طلا است.
آخرین دسته از دادهها شاید بالاترین ارزش را در بازار آزاد داشته باشند: اینکه مشتریان واقعاً چگونه از هوش مصنوعی استفاده میکنند و اینکه چه دادههایی از خودشان به مدلها دادهاند. صدها شرکت بزرگ و تعداد بیشماری کوچکتر از ابزارهایی مانند OpenAI و APIهای Anthropic برای کارهای مختلف استفاده میکنند که نیاز به تنظیم دقیق پایگاههای داده داخلی خود دارند. این دادهها ممکن است شامل برگههای بودجه قدیمی، سوابق پرسنل یا حتی کد نرمافزارهای منتشر نشده باشد. ارائهدهنده هوش مصنوعی، مانند هر محصول دیگر SaaS، دسترسی ممتازی به این اسرار صنعتی دارد. جدید بودن صنعت هوش مصنوعی خطراتی را به همراه دارد، زیرا فرایندهای هوش مصنوعی هنوز نه استاندارد شدهاند و نه درک کاملی از آنها وجود دارد.
مانند هر ارائهدهنده SaaS، شرکتهای هوش مصنوعی میتوانند امنیت و حریم خصوصی کاربران را تضمین کنند و خدمات مسئولانه ارائه دهند. شرکتهایی چون OpenAI احتمالاً پایگاه دادههای خصوصی و تماسهای API خود را کاملاً ایمن میکنند و از خطرات ذاتی در مدیریت دادههای محرمانه با هوش مصنوعی آگاه هستند. با این حال، تصمیم OpenAI برای گزارش نکردن حمله اخیر اعتماد را تضعیف میکند.
شیوههای امنیتی خوب از دادههای ارزشمند محافظت میکنند، اما تهدید دائمی عوامل مخرب را از بین نمیبرند. امنیت یک بازی موش و گربه است که اکنون توسط خود هوش مصنوعی تشدید شده است. شرکتهایی که دادههای شخصی یا تجاری ارزشمندی دارند، سالها ریسکهای مشابهی را مدیریت کردهاند، اما شرکتهای هوش مصنوعی اهداف جدیدتر و جذابتری هستند. حتی یک هک جزئی باید باعث ایجاد نگرانی در هر کسی شود که با آنها تجارت میکند، زیرا آنها به اهداف اصلی حملات تبدیل شدهاند.