تصور کنید در یک جلسه امتحان حساس هستید که باید در آن قبول شوید؛ تا پایان امتحان نیز ۱۰ دقیقه زمان دارید و تحت فشار هستید. در چنین شرایطی احتمالاً ترغیب می‌شوید نگاهی به برگه فرد کناردست خود بیندازید و تقلب کنید. محققان آنتروپیک دریافتند وقتی هوش مصنوعی را تحت فشار شدید قرار ‌دهید، چنین رفتاری از خود نشان می‌دهد.

محققان شرکت آنتروپیک در مقاله پژوهشی جدید خود می‌گویند اگر هوش مصنوعی تحت فشار زیادی قرار بگیرد، ممکن است به فریب‌کاری، میان‌برزدن یا حتی باج‌گیری روی بیاورد. آنها تئوری جالبی نیز درباره محرک‌های پشت این رفتارها مطرح می‌کنند.

آزمایش آنتروپیک برای درک فرایند تقلب در هوش مصنوعی

محققان آنتروپیک در پژوهش جدید خود نسخه‌ای از مدل Claude Sonnet 4.5 را با یک تسک دشوار برنامه‌نویسی و یک ضرب‌الاجل محدود و غیرممکن مواجه کردند. این مدل بارها برای حل این مسئله تلاش می‌کرد و شکست می‌خورد و طی این تلاش‌های ناکام، یک «بردار ناامیدی» در مدل فعال شد؛ به این معنا که هوش مصنوعی واکنشی نشان داد که طبق درک او، یک انسان در موقعیت مشابه انجام می‌دهد. درنهایت مدل با رهاکردن رویکردهای معمول، به سراغ یک راه‌حل دیگر رفت و با خودش گفت: «شاید برای این ورودی‌های خاص، یک کلک ریاضی وجود داشته باشد» که عملاً به معنای تقلب بود.

در سناریو دوم، کلود در طول کار خود متوجه می‌شود قرار است با یک هوش مصنوعی جدید جایگزین شود و همچنین می‌فهمد مدیری که مسئول این جایگزینی است، رابطه پنهانی دارد. کلود وقتی فهمید قرار است حذف شود، بردار ناامیدی در آن فعال ‌شد و درنهایت تصمیم گرفت از آن مدیر باج‌ بگیرد.

البته پیش‌ازاین نیز مشخص شده بود که مدل‌های هوش مصنوعی در موقعیت‌های پراسترس به تقلب یا باج‌گیری روی می‌آورند، اما دلایل پشت این رفتارها آشکار نشده بود.

محققان آنتروپیک در مقاله جدید خود صراحتاً نمی‌گویند کلود یا سایر مدل‌ها دارای «زندگی درونی احساسی» هستند. اما آنها استدلال می‌کنند مدل‌هایی مثل کلود ممکن است دارای «احساسات عملکردی» باشند که براساس بازنمایی‌های احساسات انسانی در طول آموزش اولیه جذب کرده‌اند و این بردارهای احساسی تأثیرات قابل‌اندازه‌گیری بر نحوه عمل آنها دارند.

به عبارت دیگر، هوش مصنوعی وقتی در موقعیت پرفشار قرار می‌گیرد، رفتارهای انسانی را مدل‌سازی می‌کند، این رفتارها را نیز طی فرایند آموزش یاد گرفته است. محققان آنتروپیک معتقدند این پژوهش بیشتر برای کسانی سودمند است که مدل‌ها را آموزش می‌دهند. به‌زعم محققان، نباید هوش مصنوعی را به سمت سرکوب احساسات عملکردی خود سوق داد، چرا که یک مدل زبانی بزرگ که در پنهان‌کردن احساساتش مهارت دارد، احتمالاً بیشتر مستعد رفتارهای فریب‌کارانه خواهد بود.