چین به جای کرونا با Deepseek آمد
چین با هوش مصنوعی deepseek همه را شگفتزده کرد و شرایط را تغییر داد.
چند روز از عرضه هوش مصنوعی چین با نام deepseek میگذرد این را میتوان یک تحول بزرگ در عرصه فناوری دانست.
هوش مصنوعی DeepSeek-R1 تا به حال مدلهای خود را به صورت متن باز منتشر کرد که بهدنبال آن، ارزش سهامهای شرکتهایی مانند Nvidia تا ۶۰۰ میلیارد دلار کاهش یافت .
اما این هوش مصنوعی چه ویژگیهای منحصر بهفردی دارد که چنین اثری بر حوزه فناوری گذاشته است؟
مورگان براون، معاون توسعه محصول شرکت دراپباکس در رشته توییتی به برخی پرسشها پاسخ داده است.
پرسش اول چرا اختراعات AI دیپسیک همه رو انگشت به دهان گذاشته (و احتمالا بازار ۲ تریلیون دلاری انویدیا را به خطر انداخته است:
چند نکته مهم: فعلا فرایند آموزش مدلهای AI به شدت پرهزینه است. انترپرایزهایی مثل OpenAI Anthropic و ... بیشتر از ۱۰۰ میلیون دلار فقط برای محاسبات خرج میکنند
پس نیاز به مراکز داده بسیار بزرگ با هزاران GPU چهل هزار دلاری دارند
این به معنای آن است که برای راهاندازی یک کارخانه احتیاج به یک نیروگاه برق باشد
حالا DeepSeek تمام معادلات را تغییر داده و گفته است «هه! اگه همه این کارها را با ۵ میلیون دلار انجام دادم چی؟» و واقعا این کار رو کرد!
نکته دوم : این مدل توانسته است GPT-4 و Clause را شکست بدهد
و این باعث شگفتی دنیای هوش مصنوعی شده!
پرسش دوم چطور این کار را کردند؟
همه چیز را از اول بازاندیشی کردند. هوش مصنوعیهای سنتی مثل این هستن که هر عدد را با ۳۲ اعشار مینویسند.
دیپسیک گفته« خب چرا با ۸ تا ننویسیم؟ تقریبا همون قدر دقیقه!»
بوم! ۷۵٪ کاهش در حافظه مورد نیاز!
بعد رفتند سراغ سیستم Multi token
هوش مصنوعیهای نرمال مثل یه بچه کلاس اولی میخوانند : « بابا .... نان .... داد»
ولی دیپسیک کل جمله را یکجا میخونه با سرعت ۲ برابر و دقت ۹۰٪
وقتی قراره میلیاردها کلمه را تحلیل کنی این خیلی مهم است!
و قسمت هوشمندانه این است :
یه چیزی ساختند مثل «سیستم تخصص»
به جای اینکه یک AI غولآسا همه چیز را بداند (مثلا یک آدم که هم دکتر باشه هم مهندس، هم جامعهشناس و ... )، فقط از متخصصینی استفاده میکنند که در مواقع نیاز فراخوانی میشوند
در مدلهای نرمال سنتی
تمام ۱.۸ تریلیون پارامتر در لحظه فعالند
در دیپسیک تنها ۳۷ بیلون از
۶۷۱ بیلیون ثدر لحظه فعالند
مثل این که تیم بزرگی داشته باشید ولی فقط ان کسی را صدا بزنید که الان برای یک کاری نیاز دارید.
نتیجه حیرتانگیز شده است :
هزینه آموزش مدل: ۱۰۰ میلیون >> ۵ میلیون
تعداد GPU: صد هزار > دو هزار
هزینه API: نود و پنج درصد ارزونتر
میتواند روی کارت گرافیکهای گیمینگ هم اجرا بشود بدون این که نیازی به سختافزار مرکز داده باشد.
از همه مهمتر انتخاب این که مدل اوپن سورس و داده باز است . همه میتوانند بررسی کنند
کدش عمومی است. راهنمای تکنیکال همه چیز رو توضیح میدهد.
اما پرسش سوم چرا این اتفاق مهم است
چون این فرض و نظریه که «فقط کمپانیهای بزرگ میتوانند در عرصه AI بازی کنند » باطل شد
برای انویدیا این ترسناک است! کل تجارتشان بر مبنای این بود که با حاشیه سود ۹۰ درصد GPU های فوق گران بفروشند. حالا اگر همه بتوانند با GPUهای گیمینگ مدل هوش مصنوعی بسازند نتیجه معلوم است
ضربه نهایی هم این بود:
دیپسیک این کار رو با تیمی کمتر از ۲۰۰ نفر انجام داد.
در حالیکه هزینههایی که متا برای حقوق کارکنانش میپردازد از کل بودجه آموزش دیپسیک بیشتر است و مدلشان هم به این اندازه خوب نیست
پرسش چهارم چگونه این وضعین کلاسیک بهم ریخت؟
در حالیکه بنگاههای مستقر درحال بهینهساری فرآیندهای موجود هستند حالا همه چیز متفاوت شد.
دیپسیک هم پرسید «چی میشه به جای اینکه هی سختافزار اضافه کنیم، این کار را هوشمندانهتر انجام بدیم؟»
عواقب چشمگیر:
- دسترسی به توسعه هوش مصنوعی بیشتر میشود
- رقابت به شدت افزایش پیدا میکند
- «سنگر»های بزرگ شرکتهای تکنولوژیک مثل دستاندازهای کوچیک جلوه می کند
- نیازهای سختافزاری و هزینهها به شدت کم میشود
البته غولهایی مثل OpenAI و Anthropic بیکار نمیشینند. احتمالا همین الان هم شروع کردن به استفاده و به کارگیری این ابداعات. ولی غول بهرهوری از چراغ جادو آمده بیرون. دیگه نمیتوان به دورانی برگشت که مدام سختافزار اضافه کرد.
به نظر میرسد این لحظه از آن لحظههای مهم تاریخی است درست مثل موقعی که PCها توانستند کامپیوترهای بزرگ را از رده خارج کنند، یا محاسبات ابری همه چیز رو تغییر داد.
هوش مصنوعی قرار است با هزینه بسیار کمتر، و به مقدار بیشتری در دسترس قرار بگیرد.
حالا حتی دیگر نیازی نیست که بپرسیم