|

چرا باید نسبت به هک OpenAI نگران بود؟

هک شرکت OpenAI به همه یادآوری کرد که شرکت‌های هوش مصنوعی به چشم هکرها همچون گنج هستند. اما این شرکت‌ها چه داده‌هایی دارند که آن‌ها را آن‌قدر برای هکرها ارزشمند می‌کند؟

چرا باید نسبت به هک OpenAI نگران بود؟

اگرچه هک OpenAI سطحی بوده، اما نگران‌کننده است و یادآور این است که شرکت‌های هوش مصنوعی در کوتاه‌مدت خود را به یکی از جذاب‌ترین اهداف برای هکرها تبدیل کرده‌اند. لئوپولد اشنبرنر، کارمند سابق OpenAI اخیراً جزئیات بیشتری در مورد این هک فاش کرده است. او این اتفاق را یک «حادثه امنیتی بزرگ» نامیده است. افراد ناشناس دیگری از این شرکت به تایمز گفته‌اند که هکر به اطلاعات کمی دست یافته است.

 البته هیچ نقض امنیتی واقعاً نباید بی‌اهمیت تلقی شود و شنود صحبت‌های کارمندان OpenAI در مورد توسعه شرکت قطعاً اهمیت دارد. با این حال دسترسی یک هکر به سیستم‌های داخلی، مدل‌های در حال پیشرفت، نقشه‌های راه مخفی و غیره بسیار سخت است و غیرممکن به نظر می‌رسد.

 اما به هر حال این اتفاق باید ما را بترساند؛ زیرا واقعیت این است که این شرکت‌های هوش مصنوعی به پایگاه عظیمی از داده‌های بسیار ارزشمند تبدیل شده‌اند.

 شرکت‌های هوش مصنوعی مانند OpenAI به سه نوع داده دسترسی دارند: داده‌های آموزشی با کیفیت بالا، تعاملات کاربر انبوه و داده‌های مشتری. البته نوع داده‌های آموزشی آنها دقیقاً مشخص نیست؛ زیرا شرکت‌ها در مورد مخزن‌های داده خود بسیار محافظه‌کار هستند. اما نباید فکر کنیم که این داده فقط داده‌های جمع‌آوری شده از وب هستند. درست است که آنها از صفحات وب استفاده می‌کنند؛ اما شکل دادن به داده‌های خام و تبدیل آنها به منبع آموزشی مدل‌های بزرگ زبانی، کار دشواری است. این کار به تلاش و زحمت زیادی نیاز دارد و ساعت‌های طولانی باید صرف آموزش مدل‌ها شود.

 برخی از مهندسان یادگیری ماشین حدس می‌زنند که از میان تمام عواملی که در ایجاد یک مدل زبانی بزرگ نقش دارند، کیفیت داده مهم‌ترین آنها است. به همین دلیل است که مدلی که در توییتر و ردیت آموزش دیده باشد هرگز به اندازه مدلی با تمام داده‌های یک قرن گذشته آموزش داده شده، گویا نخواهند بود. این مسئله توضیح می‌دهد که چرا OpenAI از منابع قانونی مشکوک، مانند کتاب‌های دارای حق چاپ، در داده‌های آموزشی خود استفاده می‌کند؛ رویه‌ای که ادعا می‌کنند آن را متوقف کرده‌اند. بنابراین مجموعه داده‌های آموزشی که OpenAI ساخته است، برای رقبا، از شرکت‌های دیگر گرفته تا دولت‌های مخالف و تنظیم‌کننده‌ها در ایالات متحده، ارزش فوق‌العاده‌ای دارد.

 اما احتمالاً گنجینه‌های ارزشمندتری هم وجود داشته باشد. داده‌های کاربران OpenAI شاید حتی ارزشمندتر از داده‌های آموزشی آن باشند. میلیاردها مکالمه با صدها هزار موضوع در چت جی‌پی‌تی وجود دارد. جت چی‌پی‌تی با این داده‌های حتی بینش عمیق‌تری از کاربران حتی نسبت به گوگل ارائه می‌دهد.

 برای مثال، وقتی نتایج جستجو گوگل را برای «کولر» مشاهده می‌کنید در واقع چیزی که می‌بینید میزان علاقه بازار و مردم به این وسیله است. در این نتایج مواردی چون ترجیحات کاربران، بودجه، شرایط خانه یا ترجیحات سازنده نشان داده نمی‌شود. این داده‌ها ارزشمند هستند. به همین دلیل است که گوگل تلاش می‌کند تا جستجوها را با تعاملات هوش مصنوعی جایگزین کند تا چنین اطلاعات عمیقی را جمع‌آوری کند. به این فکر کنید که مردم چقدر گفتگو با ChatGPT داشته‌اند و چقدر این اطلاعات مفید است، نه فقط برای توسعه‌دهندگان هوش مصنوعی، بلکه برای تیم‌های بازاریابی، مشاوران، تحلیلگران... این یک معدن طلا است.

 آخرین دسته از داده‌ها شاید بالاترین ارزش را در بازار آزاد داشته باشند: اینکه مشتریان واقعاً چگونه از هوش مصنوعی استفاده می‌کنند و اینکه چه داده‌هایی از خودشان به مدل‌ها داده‌اند. صدها شرکت بزرگ و تعداد بی‌شماری کوچک‌تر از ابزارهایی مانند OpenAI و APIهای Anthropic برای کارهای مختلف استفاده می‌کنند که نیاز به تنظیم دقیق پایگاه‌های داده داخلی خود دارند. این داده‌ها ممکن است شامل برگه‌های بودجه قدیمی، سوابق پرسنل یا حتی کد نرم‌افزارهای منتشر نشده باشد. ارائه‌دهنده هوش مصنوعی، مانند هر محصول دیگر SaaS، دسترسی ممتازی به این اسرار صنعتی دارد. جدید بودن صنعت هوش مصنوعی خطراتی را به همراه دارد، زیرا فرایندهای هوش مصنوعی هنوز نه استاندارد شده‌اند و نه درک کاملی از آنها وجود دارد.

 مانند هر ارائه‌دهنده SaaS، شرکت‌های هوش مصنوعی می‌توانند امنیت و حریم خصوصی کاربران را تضمین کنند و خدمات مسئولانه ارائه دهند. شرکت‌هایی چون OpenAI احتمالاً پایگاه داده‌های خصوصی و تماس‌های API خود را کاملاً ایمن می‌کنند و از خطرات ذاتی در مدیریت داده‌های محرمانه با هوش مصنوعی آگاه هستند. با این حال، تصمیم OpenAI برای گزارش نکردن حمله اخیر اعتماد را تضعیف می‌کند.

 شیوه‌های امنیتی خوب از داده‌های ارزشمند محافظت می‌کنند، اما تهدید دائمی عوامل مخرب را از بین نمی‌برند. امنیت یک بازی موش و گربه است که اکنون توسط خود هوش مصنوعی تشدید شده است. شرکت‌هایی که داده‌های شخصی یا تجاری ارزشمندی دارند، سال‌ها ریسک‌های مشابهی را مدیریت کرده‌اند، اما شرکت‌های هوش مصنوعی اهداف جدیدتر و جذاب‌تری هستند. حتی یک هک جزئی باید باعث ایجاد نگرانی در هر کسی شود که با آنها تجارت می‌کند، زیرا آنها به اهداف اصلی حملات تبدیل شده‌اند.