در جریان رویداد رونمایی GPT-5، اوپن‌ای‌آی چند نمودار برای نمایش توانایی‌های مدل جدیدش ارائه کرد که در نگاه اول چشمگیر به‌نظر می‌رسیدند؛ اما بررسی دقیق‌تر نشان داد برخی از آن‌ها دچار اشکال بودند.

در یکی از نمودارها که به‌طور طنزآمیز عملکرد GPT-5 را در «ارزیابی‌های فریب» نشان می‌داد، مقیاس‌ها ناسازگار بودند.

در بخش «فریب در کدنویسی» عدد ۵۰ درصد برای GPT-5 با قابلیت «تفکر» ثبت شده؛ اما مقایسه‌ی آن با مدل کوچک‌تر o3 با نرخ ۴۷٫۴ درصد، میله‌ی بلندتری را برای o3 نشان می‌دهد. وب‌سایت OpenAI اعداد صحیح را نمایش می‌دهد و در آن نرخ فریب GPT-5 برابر ۱۶٫۵ درصد ذکر شده است.

در یکی دیگر از نمودارها، یک امتیاز GPT-5 پایین‌تر از o3 ثبت شده ولی با میله‌ی بلندتری نمایش داده شده و حتی مقادیر o3 و GPT-4o با وجود تفاوت عددی، طول برابر دارند. خطا به حدی آشکار بود که سم آلتمن، مدیرعامل OpenAI، آن را «یک اشتباه بزرگ در نمودار» توصیف کرد و اشاره کرد نسخه‌ی درست در وب‌سایت منتشر شده است.

مقاله‌های مرتبط

یکی از کارکنان بخش بازاریابی OpenAI عذرخواهی کرد و نوشت: «نمودار را در وب‌سایت اصلاح کردیم، بابت این اشتباه غیرعمدی پوزش می‌خواهیم.» بروز چنین خطایی در روز معرفی یک محصول مهم، آن هم در حالی که اوپن‌ای‌آی روی «پیشرفت قابل‌توجه در کاهش توهمات» مدل تأکید می‌کند، تصویر مناسبی برای آن رقم نمی‌زند.

source

توسط wikiche.com