اخیراً، شرکت متا «لاما ۴» (Llama 4) را منتشر کرد؛ خانواده‌ی جدیدی از مدل‌های زبان بزرگ که شامل «اسکوت» (Scout)، «ماوریک» (Maverick) و «بهیموث» (Behemoth) می‌شود. بر اساس نتایج بنچمارک‌ها (ارزیابی‌ها)، مدل «لاما ۴ ماوریک» (Llama-4-Maverick-03-26-Experimental) در جایگاه دوم قرار گرفت و مدل‌هایی مانند GPT-4o متعلق به OpenAI و Gemini 2.0 Flash متعلق به گوگل را شکست داد و تنها پس از Gemini 2.5 Pro قرار گرفت.

 

سقوط لاما ۴ متا از رتبه ۲ به ۳۲: آیا متا در بنچمارک‌ها تقلب کرد؟

 

اما خیلی زود، مشخص شد، زیرا کاربران متوجه تفاوت‌هایی در رفتار بین مدل ماوریکی که در بنچمارک‌ها استفاده شده بود و نسخه‌ای که در دسترس عموم قرار گرفته بود، شدند. این موضوع منجر به اتهاماتی مبنی بر تقلب متا شد و واکنش یک مدیر اجرایی متا در شبکه اجتماعی ایکس (X) را به دنبال داشت:

«خوشحالیم که شروع به در دسترس قرار دادن لاما ۴ برای همه شما کرده‌ایم. ما در حال حاضر نتایج عالی زیادی را می‌شنویم که افراد با این مدل‌ها به دست می‌آورند.با این حال، گزارش‌هایی مبنی بر کیفیت متغیر در سرویس‌های مختلف نیز به گوش ما می‌رسد. از آنجایی که ما مدل‌ها را به محض آماده شدن منتشر کردیم…»

پلتفرم ال‌ام‌آرنا (LMArena) تأیید کرد که متا از سیاست‌های آن پیروی نکرده است، از عموم عذرخواهی کرد و یک به‌روزرسانی برای سیاست‌های خود صادر نمود.«ما سؤالاتی از جامعه در مورد آخرین انتشار لاما-۴ در آرنا مشاهده کرده‌ایم. برای اطمینان از شفافیت کامل، بیش از ۲۰۰۰ نتیجه رقابت رودررو را برای بررسی عمومی منتشر می‌کنیم. این شامل دستورات کاربر، پاسخ‌های مدل و ترجیحات کاربر است. 

اکنون، نسخه منتشر شده بدون تغییر این مدل (Llama-4-Maverick-17B-128E-Instruct) به ال‌ام‌آرنا اضافه شده است و در رتبه ۳۲ قرار دارد. جهت اطلاع، مدل‌های قدیمی‌تر مانند «کلود ۳.۵ سونِت» (Claude 3.5 Sonnet) که ژوئن گذشته منتشر شد و «جمینی-۱.۵-پرو-۰۰۲» (Gemini-1.5-Pro-002) که سپتامبر گذشته منتشر شد، رتبه بالاتری دارند.

در بیانیه‌ای به تک‌ کرانچ (TechCrunch)، یک سخنگوی متا اشاره کرد که مدل Llama-4-Maverick-03-26-Experimental به طور خاص برای گفتگو (چت) تنظیم شده بود و در بنچمارک‌های ال‌ام‌آرنا عملکرد بسیار خوبی داشت. وی افزود که این شرکت «هیجان‌زده» است تا ببیند توسعه‌دهندگان اکنون که نسخه متن‌باز لاما ۴ منتشر شده است، چه چیزهایی خواهند ساخت.

source

توسط wikiche.com