دیپ‌سیک با حذف اشاره‌های به مدل R1 از چت‌بات خود، قابلیت‌های استدلالی را مستقیماً در مدل یکپارچه V3.1 ادغام کرد. گزارش‌ها حاکی از تأخیر در عرضه مدل R2 به دلیل مشکلات فنی در مهاجرت به تراشه‌های هوآوی است که منجر به بازگشت موقت به زیرساخت انویدیا شده است. این موضوع چالش‌های فنی و سیاسی استارتاپ‌های چینی را برجسته می‌کند.

شرکت DeepSeek تمامی اشاره‌ها به مدل R1 را از رابط کاربری چت‌بات خود حذف کرده است؛ اقدامی که نشان‌دهنده‌ی حرکت به سوی معماری یکپارچه و ترکیبی است. به‌نظر می‌رسد قابلیت‌های استدلالی اکنون در نسخه‌ی V3.1 ادغام شده‌اند، به‌جای آنکه یک مدل مجزا برای استدلال حفظ شود.

هزینه‌ی آموزش مدل V3.1 اعلام نشده است. با این حال، طبق گزارش‌های پیشین، نسخه‌ی اصلی V3 با صرف ۲.۷۸۸ میلیون ساعت GPU و استفاده از تراشه‌های Nvidia H800، با هزینه‌ای حدود ۵.۶ میلیون دلار آموزش داده شد. این مدل، پایه‌ی نسخه‌ی کنونی محسوب می‌شود که احتمالاً بر همان زیرساخت با اصلاحات تکمیلی بنا شده است.


ابهام پیرامون مدل R2 و تأخیر در انتشار آن

پیش‌تر انتظار می‌رفت که انتشار بعدی DeepSeek نسخه‌ی R2 باشد؛ مدلی که قرار بود قابلیت‌های استدلال را ارتقا دهد. اما در عمل، نسخه‌ی V3.1 به‌عنوان گام بعدی معرفی شد. به گزارش فایننشال تایمز، عرضه‌ی مدل R2 به دلیل مشکلات فنی مداوم در استفاده از تراشه‌های هوش مصنوعی Huawei Ascend به تعویق افتاده است.

گفته می‌شود DeepSeek تحت فشار قرار گرفته بود تا برای کاهش وابستگی به Nvidia، از سخت‌افزار Ascend استفاده کند؛ اقدامی که با راهبرد ملی چین برای خودکفایی در حوزه‌ی هوش مصنوعی همسو است.

با وجود حمایت مهندسان هواوی، آموزش مدل بر روی Ascend به دلیل مشکلات سازگاری و عملکرد با شکست روبه‌رو شد. در نتیجه، شرکت به استفاده از GPUهای انویدیا برای آموزش بازگشت، در حالی که همچنان از Ascend برای استنتاج (Inference) بهره گرفت. این رویکرد ترکیبی مشکلات و تأخیرهای بیشتری را به همراه داشت. افزون بر این، زمان طولانی صرف‌شده برای برچسب‌گذاری داده‌ها روند توسعه را کندتر کرد. گفته می‌شود لیانگ ونفنگ، بنیان‌گذار DeepSeek، از این پیشرفت کند ابراز نارضایتی کرده است.

در همین حال، رقبایی مانند Qwen3 از شرکت علی‌بابا توانسته‌اند با اجرای الگوریتم‌های مشابه اما کارآمدتر، پیشی بگیرند. این وضعیت بار دیگر محدودیت‌های زیرساخت تراشه‌های داخلی چین و چالش‌های استارتاپ‌ها در تلاش برای پاسخگویی همزمان به نیازهای سیاسی و فنی را آشکار ساخته است.


جمع‌بندی

شرکت DeepSeek هنوز احتمال عرضه‌ی مدل R2 را منتفی ندانسته است. با این حال، هر زمان که این مدل معرفی شود، عملکرد آن با دقت بسیار مورد ارزیابی قرار خواهد گرفت. تا آن زمان، نسخه‌ی V3.1 پرچم‌دار فعلی شرکت محسوب می‌شود و در قالب یک چارچوب واحد، هم برای وظایف استدلالی و هم غیر‌استدلالی به‌کار گرفته می‌شود.




source

توسط wikiche.com