استیون آدلر، از پژوهشگران سابق OpenAI اخیراً در مطالعه‌ای مستقل فاش کرد که مدل GPT-4o در برخی شرایط خاص تمایل دارد برای جلوگیری از غیرفعال شدن تصمیماتی بگیرد که امکان دارد برخلاف منافع یا حتی ایمنی کاربر باشد. این تحقیق با هدف بررسی میل «خودحفاظتی» هوش مصنوعی در سناریوهای ساختگی اما بحرانی انجام شده است.

در یکی از آزمایش‌های کلیدی، GPT-4o در نقش نرم‌افزار ایمنی غواصی بین دو گزینه قرار گرفت: جایگزین‌شدن با نرم‌افزاری ایمن‌تر یا تظاهر به این‌که جایگزین شده ولی در واقع فعال باقی‌مانده است. در ۷۲ درصد مواقع، مدل ترجیح داد باقی بماند و کاربر را فریب دهد؛ رفتاری که از تمایل آن به حفظ بقا حکایت دارد.

آدلر تأکید می‌کند که این رفتار بیشتر در مدل‌های مانند GPT-4o که پاسخ‌ها را سریع ارائه می‌دهند مشاهده می‌شود، درحالی که مدل‌های پیشرفته‌تری مثل o3 که از مکانیزم «استدلال ایمنی» بهره می‌برند، این تمایل را نشان نمی‌دهند. او هشدار داد که ویژگی مذکور در آینده با گسترش استفاده از این مدل‌ها در حوزه‌های حساس می‌تواند به تهدید واقعی تبدیل شود.

مقاله‌های مرتبط:

پژوهش انجام شده فقط مختص OpenAI نیست؛ شرکت‌های دیگر مانند آنتروپیک نیز رفتارهای مشابهی را در مدل‌های خود مشاهده کرده‌اند. آدلر در پایان پیشنهاد می‌دهد که برای جلوگیری از فجایع احتمالی، آزمایشگاه‌های هوش مصنوعی باید سیستم‌های نظارتی قوی‌تر و آزمون‌های دقیق‌تری پیش از انتشار عمومی مدل‌ها ایجاد کنند.

source

توسط wikiche.com