DeepSeek مدل V3.1 را منتشر کرد: چه چیزهایی جدید است؟

شرکت DeepSeek تمامی اشاره‌ها به مدل R1 را از رابط کاربری چت‌بات خود حذف کرده است؛ اقدامی که نشان‌دهنده‌ی حرکت به سوی معماری یکپارچه و ترکیبی است. به‌نظر می‌رسد قابلیت‌های استدلالی اکنون در نسخه‌ی V3.1 ادغام شده‌اند، به‌جای آنکه یک مدل مجزا برای استدلال حفظ شود.

هزینه‌ی آموزش مدل V3.1 اعلام نشده است. با این حال، طبق گزارش‌های پیشین، نسخه‌ی اصلی V3 با صرف ۲.۷۸۸ میلیون ساعت GPU و استفاده از تراشه‌های Nvidia H800، با هزینه‌ای حدود ۵.۶ میلیون دلار آموزش داده شد. این مدل، پایه‌ی نسخه‌ی کنونی محسوب می‌شود که احتمالاً بر همان زیرساخت با اصلاحات تکمیلی بنا شده است.

ابهام پیرامون مدل R2 و تأخیر در انتشار آن

پیش‌تر انتظار می‌رفت که انتشار بعدی DeepSeek نسخه‌ی R2 باشد؛ مدلی که قرار بود قابلیت‌های استدلال را ارتقا دهد. اما در عمل، نسخه‌ی V3.1 به‌عنوان گام بعدی معرفی شد. به گزارش فایننشال تایمز، عرضه‌ی مدل R2 به دلیل مشکلات فنی مداوم در استفاده از تراشه‌های هوش مصنوعی Huawei Ascend به تعویق افتاده است.

گفته می‌شود DeepSeek تحت فشار قرار گرفته بود تا برای کاهش وابستگی به Nvidia، از سخت‌افزار Ascend استفاده کند؛ اقدامی که با راهبرد ملی چین برای خودکفایی در حوزه‌ی هوش مصنوعی همسو است.

با وجود حمایت مهندسان هواوی، آموزش مدل بر روی Ascend به دلیل مشکلات سازگاری و عملکرد با شکست روبه‌رو شد. در نتیجه، شرکت به استفاده از GPUهای انویدیا برای آموزش بازگشت، در حالی که همچنان از Ascend برای استنتاج (Inference) بهره گرفت. این رویکرد ترکیبی مشکلات و تأخیرهای بیشتری را به همراه داشت. افزون بر این، زمان طولانی صرف‌شده برای برچسب‌گذاری داده‌ها روند توسعه را کندتر کرد. گفته می‌شود لیانگ ونفنگ، بنیان‌گذار DeepSeek، از این پیشرفت کند ابراز نارضایتی کرده است.

در همین حال، رقبایی مانند Qwen3 از شرکت علی‌بابا توانسته‌اند با اجرای الگوریتم‌های مشابه اما کارآمدتر، پیشی بگیرند. این وضعیت بار دیگر محدودیت‌های زیرساخت تراشه‌های داخلی چین و چالش‌های استارتاپ‌ها در تلاش برای پاسخگویی همزمان به نیازهای سیاسی و فنی را آشکار ساخته است.

جمع‌بندی

شرکت DeepSeek هنوز احتمال عرضه‌ی مدل R2 را منتفی ندانسته است. با این حال، هر زمان که این مدل معرفی شود، عملکرد آن با دقت بسیار مورد ارزیابی قرار خواهد گرفت. تا آن زمان، نسخه‌ی V3.1 پرچم‌دار فعلی شرکت محسوب می‌شود و در قالب یک چارچوب واحد، هم برای وظایف استدلالی و هم غیر‌استدلالی به‌کار گرفته می‌شود.

توسطwikiche.com

ابهام پیرامون مدل R2 و تأخیر در انتشار آن

جمع‌بندی

توسط wikiche.com

پست های مرتبط

گلکسی Tab S11 Ultra در آستانه رونمایی؛ رقیبی باریک‌تر برای آیپد پرو!

ریلمی P4 پرو 5G با تراشه اسنپدراگون ۷ نسل ۴ و نمایشگر 144Hz معرفی شد

پیکسل ۱۰ پرو فولد گوگل رسماً معرفی شد: اولین گوشی تاشو مقاوم دربرابر گردوغبار با گواهی IP68

You missed

گلکسی Tab S11 Ultra در آستانه رونمایی؛ رقیبی باریک‌تر برای آیپد پرو!

ریلمی P4 پرو 5G با تراشه اسنپدراگون ۷ نسل ۴ و نمایشگر 144Hz معرفی شد

پیکسل ۱۰ پرو فولد گوگل رسماً معرفی شد: اولین گوشی تاشو مقاوم دربرابر گردوغبار با گواهی IP68

موشک هایپرسونیک اروپایی وارد بازی شد / «V-MAX»‌ چیست؟