نتایج یک تحقیق: عملکرد مدل‌های هوش مصنوعی متا بهتر از واقعیت جلوه داده شده است

یکی از مدل‌های هوش مصنوعی جدید متا به‌نام Maverick در آزمون LM Arena رتبه‌ی دوم را کسب کرد. این آزمون از سوی ارزیابان انسانی انجام شده است که خروجی مدل‌ها را مقایسه و نتایج خود را اعلام می‌کنند.

اکنون به نظر می‌رسد نسخه‌ای از Maverick که متا در LM Arena به کار گرفته، با نسخه‌ای که برای توسعه‌دهندگان ارائه شده، متفاوت است.

چندین محقق هوش مصنوعی در شبکه‌ی اجتماعی ایکس اشاره کردند که متا در بیانیه‌اش گفته نسخه‌ای که در LM Arena استفاده شده، نسخه‌ای آزمایشی مخصوص مکالمه است.

نموداری در وب‌سایت رسمی Llama نشان می‌دهد که آزمایش‌های LM Arena با استفاده از نسخه‌ی Llama 4 Maverick و «بهینه‌سازی‌شده برای مکالمه» انجام شده است.

مقاله‌های مرتبط

اگر مدلی برای یک آزمون خاص تنظیم شود و نسخه‌ی معمولی‌اش در اختیار کاربران قرار بگیرد، توسعه‌دهندگان نمی‌توانند دقیقاً عملکرد مدل را در زمینه‌های مختلف پیش‌بینی کنند؛ موضوعی که می‌تواند گمراه‌کننده باشد. آزمون‌های ارزیابی، هرچند ناکافی، باید تصویری کلی از نقاط قوت و ضعف مدل را در طیف وسیعی از وظایف ارائه دهند.

متا هنوز به یافته‌ی جدید محققان واکنشی نشان نداده است.

source

توسطwikiche.com

توسط wikiche.com

پست های مرتبط

سازنده گوشی‌های نوکیا از بازار موبایل آمریکا خارج شد

مزدا تصاویر کراس اور CX-5 مدل 2025 را منتشر کرد

سونی بیانیه‌ای درباره مشکل آزاردهنده اکسپریا ۱ VII منتشر کرد

You missed

سازنده گوشی‌های نوکیا از بازار موبایل آمریکا خارج شد

مزدا تصاویر کراس اور CX-5 مدل 2025 را منتشر کرد

سونی بیانیه‌ای درباره مشکل آزاردهنده اکسپریا ۱ VII منتشر کرد

تاریخ معرفی سری Oppo K13 Turbo مشخص شد