۹ بهمن ۱۴۰۳ ۱۱:۴۶

چین به جای کرونا با Deepseek آمد

چین با هوش مصنوعی deepseek همه را شگفتزده کرد و شرایط را تغییر داد.

چند روز از عرضه هوش مصنوعی چین با نام deepseek می‌گذرد این را می‌توان یک تحول بزرگ در عرصه فناوری دانست.

هوش مصنوعی DeepSeek-R1 تا به حال مدل‌های خود را به صورت متن باز منتشر کرد که به‌دنبال آن، ارزش سهام‌های شرکت‌هایی مانند Nvidia تا ۶۰۰ میلیارد دلار کاهش یافت .

اما این هوش مصنوعی چه ویژگی‌های منحصر به‌فردی دارد که چنین اثری بر حوزه فناوری گذاشته است؟

مورگان براون، معاون توسعه محصول شرکت دراپ‌باکس در رشته توییتی به برخی پرسش‌ها پاسخ داده است.

پرسش اول چرا اختراعات AI دیپ‌سیک همه رو انگشت به دهان گذاشته (و احتمالا بازار ۲ تریلیون دلاری انویدیا را به خطر انداخته است:

چند نکته مهم: فعلا فرایند آموزش مدل‌های AI به شدت پرهزینه‌ است. انترپرایزهایی مثل OpenAI Anthropic و ... بیشتر از ۱۰۰ میلیون دلار فقط برای محاسبات خرج می‌کنند

پس نیاز به مراکز داده بسیار بزرگ با هزاران GPU چهل هزار دلاری دارند

این به معنای آن است که برای راه‌اندازی یک کارخانه احتیاج به یک نیروگاه برق باشد

حالا DeepSeek تمام معادلات را تغییر داده و گفته است «هه! اگه همه این کارها را با ۵ میلیون دلار انجام دادم چی؟» و واقعا این کار رو کرد!

نکته دوم : این مدل توانسته است GPT-4 و Clause را شکست بدهد

و این باعث شگفتی دنیای هوش مصنوعی شده!

پرسش دوم چطور این کار را کردند؟

همه چیز را از اول بازاندیشی کردند. هوش مصنوعی‌های سنتی مثل این هستن که هر عدد را با ۳۲ اعشار می‌نویسند.

دیپ‌سیک گفته« خب چرا با ۸ تا ننویسیم؟ تقریبا همون قدر دقیقه!»

بوم! ۷۵٪ کاهش در حافظه مورد نیاز!

بعد رفتند سراغ سیستم Multi token

هوش مصنوعی‌های نرمال مثل یه بچه کلاس اولی می‌خوانند : « بابا .... نان .... داد»

ولی دیپ‌سیک کل جمله را یکجا می‌خونه با سرعت ۲ برابر و دقت ۹۰٪

وقتی قراره میلیاردها کلمه را تحلیل کنی این خیلی مهم است!

و قسمت هوشمندانه‌ این است :

یه چیزی ساختند مثل «سیستم تخصص»

به جای اینکه یک AI غول‌آسا همه چیز را بداند (مثلا یک آدم که هم دکتر باشه هم مهندس، هم جامعه‌شناس و ... )، فقط از متخصصینی استفاده می‌کنند که در مواقع نیاز فراخوانی میشوند

در مدل‌های نرمال سنتی

تمام ۱.۸ تریلیون پارامتر در لحظه فعالند

در دیپ‌سیک تنها ۳۷ بیلون از

۶۷۱ بیلیون ثدر لحظه فعالند

مثل این که تیم بزرگی داشته باشید ولی فقط ان کسی را صدا بزنید که الان برای یک کاری نیاز دارید.

نتیجه حیرت‌انگیز شده است :

هزینه آموزش مدل: ۱۰۰ میلیون >> ۵ میلیون

تعداد GPU: صد هزار > دو هزار

هزینه API: نود و پنج درصد ارزون‌تر

می‌تواند روی کارت گرافیک‌های گیمینگ هم اجرا بشود بدون این که نیازی به سخت‌افزار مرکز داده باشد.

از همه مهم‌تر انتخاب این که مدل اوپن سورس و داده باز است . همه می‌توانند بررسی کنند

کدش عمومی است. راهنمای تکنیکال همه چیز رو توضیح میدهد.

اما پرسش سوم چرا این اتفاق مهم است

چون این فرض و نظریه که «فقط کمپانی‌های بزرگ می‌توانند در عرصه AI بازی کنند » باطل شد

برای انویدیا این ترسناک است! کل تجارتشان ‌ بر مبنای این بود که با حاشیه سود ۹۰ درصد GPU های فوق گران بفروشند. حالا اگر همه بتوانند با GPUهای گیمینگ مدل هوش مصنوعی بسازند نتیجه معلوم است

ضربه نهایی هم این بود:

دیپ‌سیک این کار رو با تیمی کمتر از ۲۰۰ نفر انجام داد.

در حالیکه هزینه‌هایی که متا برای حقوق کارکنانش می‌پردازد از کل بودجه آموزش دیپ‌سیک بیشتر است و مدل‌شان هم به این اندازه خوب نیست

پرسش چهارم چگونه این وضعین کلاسیک بهم ریخت؟

در حالیکه بنگاه‌های مستقر درحال بهینه‌ساری فرآیندهای موجود هستند حالا همه چیز متفاوت شد.

دیپ‌سیک هم پرسید «چی میشه به جای اینکه هی سخت‌افزار اضافه کنیم، این کار را هوشمندانه‌تر انجام بدیم؟»

عواقب چشمگیر:

- دسترسی به توسعه هوش مصنوعی بیشتر می‌شود

- رقابت به شدت افزایش پیدا می‌کند

- «سنگر»های بزرگ شرکت‌های تکنولوژیک مثل دست‌اندازهای کوچیک جلوه می کند

- نیازهای سخت‌افزاری و هزینه‌ها به شدت کم می‌شود

البته غول‌هایی مثل OpenAI و Anthropic بیکار نمی‌شینند. احتمالا همین الان هم شروع کردن به استفاده و به کارگیری این ابداعات. ولی غول بهره‌وری از چراغ جادو آمده بیرون. دیگه نمی‌توان به دورانی برگشت که مدام سخت‌افزار اضافه کرد.

به نظر می‌رسد این لحظه از آن لحظه‌های مهم تاریخی است درست مثل موقعی که PCها توانستند کامپیوتر‌های بزرگ‌ را از رده خارج کنند، یا محاسبات ابری همه‌ چیز رو تغییر داد.

هوش مصنوعی قرار است با هزینه بسیار کمتر، و به مقدار بیشتری در دسترس قرار بگیرد.

حالا حتی دیگر نیازی نیست که بپرسیم