شرکت هوش مصنوعی چینی دیپسیک نسخه ۳.۱ از مدل زبانی بزرگ خود را منتشر کرده است. این نسخه با گسترش پنجره متنی به ۱۲۸ هزار توکن و افزایش تعداد پارامترها به ۶۸۵ میلیارد همراه شده است. این بهروزرسانی از طریق گروه ویچت دیپسیک بهطور بیسروصدا اعلام شد، بدون آنکه اطلاعیهای در کانالهای رسمی شبکههای اجتماعی منتشر گردد.
چه چیزی تغییر کرده است؟
مهمترین تغییر در DeepSeek V3.1 افزایش طول متن زمینه است که اکنون این امکان را فراهم میآورد تا ورودیهایی معادل یک کتاب ۳۰۰ تا ۴۰۰ صفحهای را پردازش کند. این توسعه موجب بهبود کارایی در تولید محتوای بلند، تحلیل مستندات فنی با حجم گسترده و مدیریت گفتوگوهای چندمرحلهای طولانی میشود. گروه رسمی دیپسیک تأیید کرده که قابلیت پشتیبانی از این حجم ورودی در نسخه قبلی V3 بهطور داخلی فعال بود، اما در نسخه جدید بهصورت رسمی در تمامی رابطها قابل استفاده شده است. این ویژگی میتواند کاربردهای عملی متعددی در حوزههایی نظیر نگارش گزارشهای پیچیده، ترجمه متون علمی و پشتیبانی از پروژههای تحقیقاتی طولانیمدت داشته باشد.
معماری Mixture-of-Experts و نتایج معیارها
دیپسیک در نسخه V3.1 همچنان بر اساس معماری Mixture-of-Experts یا همان MoE کار میکند، با این تفاوت که در هر توکن تنها ۳۷ میلیارد پارامتر فعال میشود. این مدل از چندین فرمت محاسباتی پشتیبانی میکند، از جمله BF16، FP8 و F32، که انعطاف بیشتری را برای پیادهسازی در محیطهای مختلف فراهم میسازد. توسعهدهندگان قادرند این مدل را از طریق API فراخوانی کنند یا آن را تحت مجوز متنباز MIT از مخزن Hugging Face دریافت نمایند.
این نسخه ارتقایافته در ارزیابیهای اولیهی مستقل عملکرد مطلوبی نشان داده است. در آزمون کدنویسی Aider موفق به کسب امتیاز ۷۱.۶% شد که آن را بالاتر از Claude Opus 4 قرار داده و در ردیف قدرتمندترین مدلهای متنباز حال حاضر در زمینه برنامهنویسی جای میدهد. DeepSeek V3.1 همچنین در وظایف مربوط به ریاضیات و منطق پیشرفت محسوسی از خود نشان داده است، هرچند برخی کاربران گزارش دادهاند که نسبت به مدل پیشین R1-0528 در بخش استدلال بهبودی آشکار مشاهده نکردهاند.
تغییر در استراتژی
دیپسیک تمامی ارجاعات به مدل R1 را از رابط کاربری چتبات خود حذف کرده که نشاندهنده تغییر رویکرد به سمت یک معماری هیبریدی واحد است. به نظر میرسد این شرکت قابلیتهای استدلالی خود را بهطور مستقیم در نسخه V3.1 ادغام کرده و به جای حفظ یک مدل مجزا برای استدلال، تصمیم گرفته آن را در ساختار اصلی بگنجاند.
هزینه آموزش V3.1 تاکنون فاش نشده است. با این حال، بر اساس گزارشهای پیشین، مدل اصلی V3 با صرف ۲.۷۸۸ میلیون ساعت پردازش GPU و با استفاده از تراشههای Nvidia H800 آموزش داده شد که هزینهای معادل ۵.۶ میلیون دلار برآورد گردید. این همان مدل پایهای برای نسخه کنونی محسوب میشود که به احتمال زیاد از زیرساخت مشابه بهره میبرد، هرچند با اصلاحات و بهینهسازیهای تکمیلی.
سردرگمی پیرامون تأخیر در مدل R2
انتظار گستردهای وجود داشت که نسخه بعدی دیپسیک، مدل R2 باشد؛ مدلی که قرار بود تواناییهای استدلالی را به سطح بالاتری ارتقا دهد. اما در عوض، نسخه V3.1 به عنوان گام بعدی معرفی شد. طبق گزارشی از فایننشال تایمز، عرضه مدل R2 به دلیل مشکلات فنی مداوم مرتبط با تراشههای هوش مصنوعی Ascend شرکت هواوی به تعویق افتاده است.
گفته میشود دیپسیک تحت فشار قرار گرفته بود تا از سختافزار Ascend استفاده کند تا وابستگی خود به انویدیا را کاهش دهد و با استراتژی ملی چین در زمینه خودکفایی در هوش مصنوعی هماهنگ شود. با وجود پشتیبانی مهندسان هواوی، فرآیند آموزش روی تراشههای Ascend به دلیل مشکلات سازگاری و افت عملکرد با شکست مواجه شد. این شرکت سپس تصمیم گرفت از GPUهای انویدیا برای آموزش بهره گیرد و در عین حال از Ascend برای استنتاج استفاده کند، که این ترکیب هیبریدی موجب پیچیدگیها و تأخیرهای بیشتر گردید. علاوه بر این، زمان طولانیتری که صرف برچسبگذاری دادهها شد نیز روند توسعه را کند ساخت. بنیانگذار دیپسیک، لیانگ ونفنگ، ظاهررا از این پیشرفت کند ابراز نارضایتی کرده است.
در همین حال، رقبایی مانند Qwen3 از شرکت علیبابا توانستهاند با استفاده از الگوریتمهای مشابه اما با کارایی بالاتر، گامهای سریعتری بردارند. این وضعیت محدودیتهای زیرساخت تراشههای بومی چین و دشواریهایی را که استارتاپها در تلاش برای برآورده کردن همزمان تقاضاهای سیاسی و فنی با آن مواجه هستند، به وضوح نشان داده است. دیپسیک احتمال معرفی مدل R2 را منتفی ندانسته است. با این حال، هر زمان که این مدل عرضه شود، عملکرد آن تحت بررسیهای شدید و مقایسههای مستقیم قرار خواهد گرفت. تا آن زمان، نسخه V3.1 به عنوان پرچمدار کنونی شرکت عمل میکند و وظایف مرتبط با استدلال و غیر استدلال را در قالب یک ساختار یکپارچه در اختیار کاربران و توسعهدهندگان قرار میدهد.
source