یکی از مدل‌های هوش مصنوعی جدید متا به‌نام Maverick در آزمون LM Arena رتبه‌ی دوم را کسب کرد. این آزمون از سوی ارزیابان انسانی انجام شده است که خروجی مدل‌ها را مقایسه و نتایج خود را اعلام می‌کنند.

اکنون به نظر می‌رسد نسخه‌ای از Maverick که متا در LM Arena به کار گرفته، با نسخه‌ای که برای توسعه‌دهندگان ارائه شده، متفاوت است.

چندین محقق هوش مصنوعی در شبکه‌ی اجتماعی ایکس اشاره کردند که متا در بیانیه‌اش گفته نسخه‌ای که در LM Arena استفاده شده، نسخه‌ای آزمایشی مخصوص مکالمه است.

نموداری در وب‌سایت رسمی Llama نشان می‌دهد که آزمایش‌های LM Arena با استفاده از نسخه‌ی Llama 4 Maverick و «بهینه‌سازی‌شده برای مکالمه» انجام شده است.

مقاله‌های مرتبط

اگر مدلی برای یک آزمون خاص تنظیم شود و نسخه‌ی معمولی‌اش در اختیار کاربران قرار بگیرد، توسعه‌دهندگان نمی‌توانند دقیقاً عملکرد مدل را در زمینه‌های مختلف پیش‌بینی کنند؛ موضوعی که می‌تواند گمراه‌کننده باشد. آزمون‌های ارزیابی، هرچند ناکافی، باید تصویری کلی از نقاط قوت و ضعف مدل را در طیف وسیعی از وظایف ارائه دهند.

متا هنوز به یافته‌ی جدید محققان واکنشی نشان نداده است.

source

توسط wikiche.com