
دیپسیک با حذف اشارههای به مدل R1 از چتبات خود، قابلیتهای استدلالی را مستقیماً در مدل یکپارچه V3.1 ادغام کرد. گزارشها حاکی از تأخیر در عرضه مدل R2 به دلیل مشکلات فنی در مهاجرت به تراشههای هوآوی است که منجر به بازگشت موقت به زیرساخت انویدیا شده است. این موضوع چالشهای فنی و سیاسی استارتاپهای چینی را برجسته میکند.
شرکت DeepSeek تمامی اشارهها به مدل R1 را از رابط کاربری چتبات خود حذف کرده است؛ اقدامی که نشاندهندهی حرکت به سوی معماری یکپارچه و ترکیبی است. بهنظر میرسد قابلیتهای استدلالی اکنون در نسخهی V3.1 ادغام شدهاند، بهجای آنکه یک مدل مجزا برای استدلال حفظ شود.
هزینهی آموزش مدل V3.1 اعلام نشده است. با این حال، طبق گزارشهای پیشین، نسخهی اصلی V3 با صرف ۲.۷۸۸ میلیون ساعت GPU و استفاده از تراشههای Nvidia H800، با هزینهای حدود ۵.۶ میلیون دلار آموزش داده شد. این مدل، پایهی نسخهی کنونی محسوب میشود که احتمالاً بر همان زیرساخت با اصلاحات تکمیلی بنا شده است.
ابهام پیرامون مدل R2 و تأخیر در انتشار آن
پیشتر انتظار میرفت که انتشار بعدی DeepSeek نسخهی R2 باشد؛ مدلی که قرار بود قابلیتهای استدلال را ارتقا دهد. اما در عمل، نسخهی V3.1 بهعنوان گام بعدی معرفی شد. به گزارش فایننشال تایمز، عرضهی مدل R2 به دلیل مشکلات فنی مداوم در استفاده از تراشههای هوش مصنوعی Huawei Ascend به تعویق افتاده است.
گفته میشود DeepSeek تحت فشار قرار گرفته بود تا برای کاهش وابستگی به Nvidia، از سختافزار Ascend استفاده کند؛ اقدامی که با راهبرد ملی چین برای خودکفایی در حوزهی هوش مصنوعی همسو است.
با وجود حمایت مهندسان هواوی، آموزش مدل بر روی Ascend به دلیل مشکلات سازگاری و عملکرد با شکست روبهرو شد. در نتیجه، شرکت به استفاده از GPUهای انویدیا برای آموزش بازگشت، در حالی که همچنان از Ascend برای استنتاج (Inference) بهره گرفت. این رویکرد ترکیبی مشکلات و تأخیرهای بیشتری را به همراه داشت. افزون بر این، زمان طولانی صرفشده برای برچسبگذاری دادهها روند توسعه را کندتر کرد. گفته میشود لیانگ ونفنگ، بنیانگذار DeepSeek، از این پیشرفت کند ابراز نارضایتی کرده است.
در همین حال، رقبایی مانند Qwen3 از شرکت علیبابا توانستهاند با اجرای الگوریتمهای مشابه اما کارآمدتر، پیشی بگیرند. این وضعیت بار دیگر محدودیتهای زیرساخت تراشههای داخلی چین و چالشهای استارتاپها در تلاش برای پاسخگویی همزمان به نیازهای سیاسی و فنی را آشکار ساخته است.
جمعبندی
شرکت DeepSeek هنوز احتمال عرضهی مدل R2 را منتفی ندانسته است. با این حال، هر زمان که این مدل معرفی شود، عملکرد آن با دقت بسیار مورد ارزیابی قرار خواهد گرفت. تا آن زمان، نسخهی V3.1 پرچمدار فعلی شرکت محسوب میشود و در قالب یک چارچوب واحد، هم برای وظایف استدلالی و هم غیراستدلالی بهکار گرفته میشود.
source