تصور کنید در یک جلسه امتحان حساس هستید که باید در آن قبول شوید؛ تا پایان امتحان نیز ۱۰ دقیقه زمان دارید و تحت فشار هستید. در چنین شرایطی احتمالاً ترغیب میشوید نگاهی به برگه فرد کناردست خود بیندازید و تقلب کنید. محققان آنتروپیک دریافتند وقتی هوش مصنوعی را تحت فشار شدید قرار دهید، چنین رفتاری از خود نشان میدهد.
محققان شرکت آنتروپیک در مقاله پژوهشی جدید خود میگویند اگر هوش مصنوعی تحت فشار زیادی قرار بگیرد، ممکن است به فریبکاری، میانبرزدن یا حتی باجگیری روی بیاورد. آنها تئوری جالبی نیز درباره محرکهای پشت این رفتارها مطرح میکنند.
آزمایش آنتروپیک برای درک فرایند تقلب در هوش مصنوعی
محققان آنتروپیک در پژوهش جدید خود نسخهای از مدل Claude Sonnet 4.5 را با یک تسک دشوار برنامهنویسی و یک ضربالاجل محدود و غیرممکن مواجه کردند. این مدل بارها برای حل این مسئله تلاش میکرد و شکست میخورد و طی این تلاشهای ناکام، یک «بردار ناامیدی» در مدل فعال شد؛ به این معنا که هوش مصنوعی واکنشی نشان داد که طبق درک او، یک انسان در موقعیت مشابه انجام میدهد. درنهایت مدل با رهاکردن رویکردهای معمول، به سراغ یک راهحل دیگر رفت و با خودش گفت: «شاید برای این ورودیهای خاص، یک کلک ریاضی وجود داشته باشد» که عملاً به معنای تقلب بود.

در سناریو دوم، کلود در طول کار خود متوجه میشود قرار است با یک هوش مصنوعی جدید جایگزین شود و همچنین میفهمد مدیری که مسئول این جایگزینی است، رابطه پنهانی دارد. کلود وقتی فهمید قرار است حذف شود، بردار ناامیدی در آن فعال شد و درنهایت تصمیم گرفت از آن مدیر باج بگیرد.
البته پیشازاین نیز مشخص شده بود که مدلهای هوش مصنوعی در موقعیتهای پراسترس به تقلب یا باجگیری روی میآورند، اما دلایل پشت این رفتارها آشکار نشده بود.
محققان آنتروپیک در مقاله جدید خود صراحتاً نمیگویند کلود یا سایر مدلها دارای «زندگی درونی احساسی» هستند. اما آنها استدلال میکنند مدلهایی مثل کلود ممکن است دارای «احساسات عملکردی» باشند که براساس بازنماییهای احساسات انسانی در طول آموزش اولیه جذب کردهاند و این بردارهای احساسی تأثیرات قابلاندازهگیری بر نحوه عمل آنها دارند.
به عبارت دیگر، هوش مصنوعی وقتی در موقعیت پرفشار قرار میگیرد، رفتارهای انسانی را مدلسازی میکند، این رفتارها را نیز طی فرایند آموزش یاد گرفته است. محققان آنتروپیک معتقدند این پژوهش بیشتر برای کسانی سودمند است که مدلها را آموزش میدهند. بهزعم محققان، نباید هوش مصنوعی را به سمت سرکوب احساسات عملکردی خود سوق داد، چرا که یک مدل زبانی بزرگ که در پنهانکردن احساساتش مهارت دارد، احتمالاً بیشتر مستعد رفتارهای فریبکارانه خواهد بود.