در جریان رویداد رونمایی GPT-5، اوپنایآی چند نمودار برای نمایش تواناییهای مدل جدیدش ارائه کرد که در نگاه اول چشمگیر بهنظر میرسیدند؛ اما بررسی دقیقتر نشان داد برخی از آنها دچار اشکال بودند.
در یکی از نمودارها که بهطور طنزآمیز عملکرد GPT-5 را در «ارزیابیهای فریب» نشان میداد، مقیاسها ناسازگار بودند.
در بخش «فریب در کدنویسی» عدد ۵۰ درصد برای GPT-5 با قابلیت «تفکر» ثبت شده؛ اما مقایسهی آن با مدل کوچکتر o3 با نرخ ۴۷٫۴ درصد، میلهی بلندتری را برای o3 نشان میدهد. وبسایت OpenAI اعداد صحیح را نمایش میدهد و در آن نرخ فریب GPT-5 برابر ۱۶٫۵ درصد ذکر شده است.
OpenAI
در یکی دیگر از نمودارها، یک امتیاز GPT-5 پایینتر از o3 ثبت شده ولی با میلهی بلندتری نمایش داده شده و حتی مقادیر o3 و GPT-4o با وجود تفاوت عددی، طول برابر دارند. خطا به حدی آشکار بود که سم آلتمن، مدیرعامل OpenAI، آن را «یک اشتباه بزرگ در نمودار» توصیف کرد و اشاره کرد نسخهی درست در وبسایت منتشر شده است.
مقالههای مرتبط
یکی از کارکنان بخش بازاریابی OpenAI عذرخواهی کرد و نوشت: «نمودار را در وبسایت اصلاح کردیم، بابت این اشتباه غیرعمدی پوزش میخواهیم.» بروز چنین خطایی در روز معرفی یک محصول مهم، آن هم در حالی که اوپنایآی روی «پیشرفت قابلتوجه در کاهش توهمات» مدل تأکید میکند، تصویر مناسبی برای آن رقم نمیزند.
source