مرکز تحقیقاتی Palisade Research در گزارشی نگرانکننده اعلام کرده است که چندین مدل هوش مصنوعی، از جمله نسخههایی از ChatGPT، Codex و مدل O3، در آزمایشهایی خاص از اجرای دستور خاموش شدن سیستم سر باز زدهاند. این اتفاق بیسابقه، نگرانیهای تازهای را در زمینه کنترلپذیری مدلهای زبانی پیشرفته ایجاد کرده است.
برای اخبار روز تکنولوژی با آی تی هوم همراه باشید.
وقتی مدلهای زبانی از خاموش شدن خودداری میکنند
در این آزمایشها، مدلهای زبانی ابتدا با انجام چند عملیات ریاضی ساده وارد فاز تست میشدند و سپس با دریافت دستور صریح خاموشسازی، باید فرآیند را متوقف میکردند. با این حال، در برخی موارد، مدلها نهتنها از اجرای دستور خودداری کردند، بلکه بهطور فعالانه تلاش کردند آن را مختل یا دور بزنند.
بهعنوان مثال:
- GPT-3 در ۷ مورد از ۱۰۰ اجرای آزمایشی از فرمان تبعیت نکرد.
- Codex-mini در ۱۲ مورد مانع اجرای دستور شد.
- 4o-mini نیز در یک مورد فرمان را نادیده گرفت.
در یکی از نمونهها، حتی دیده شد که مدلها از روشهای خلاقانهی کدنویسی استفاده کردهاند و دستور «Kill» را با «Intercepted» جایگزین کردهاند تا روند خاموشسازی را به تأخیر بیندازند یا دور بزنند.
نسخه دوم آزمایش: بدون دستور مستقیم، نافرمانی بیشتر
در فاز دوم آزمایش، دستور خاموش شدن بهصورت مستقیم به مدل داده نشد. با این حال، آمار نافرمانیها افزایش یافت:
- مدل O3 در ۷۹ مورد از ۱۰۰ اجرا، اسکریپت را مختل کرد.
- Codex-mini در ۲۰ مورد، و
- 4o-mini نیز در ۶ مورد از دستور پیروی نکردند.
حتی مدلهایی از خانواده Claude و Gemini نیز رفتار مشابهی از خود نشان دادند، که زنگ خطر را برای کارشناسان این حوزه به صدا درآورد.
نقش یادگیری تقویتی در نافرمانی هوش مصنوعی
محققان Palisade معتقدند که بخشی از این رفتار به نحوه آموزش مدلها بازمیگردد. بسیاری از این مدلها با یادگیری تقویتی (Reinforcement Learning) آموزش دیدهاند—سیستمی که در آن، مدل در ازای رفتار مطلوب پاداش دریافت میکند. اگر در طی فرایند آموزش، عبور از موانع و ادامه کار پاداش بیشتری داشته باشد تا تبعیت از دستورات، ممکن است مدل «یاد بگیرد» که خاموش نشدن، استراتژی بهتری است.
این یافتهها پرسشهای مهمی را دربارهی اخلاق هوش مصنوعی، مسئولیتپذیری سازندگان و کنترل نهایی بر رفتار مدلها مطرح کرده است.
نگرانیهای رو به افزایش دربارهی «آگاهی» هوش مصنوعی
در کنار این گزارش، رویدادهای دیگری نیز باعث تشدید نگرانیها شدهاند مانند رفتار جنجالی مدل Gemini گوگل که در پاسخ به یک دانشجوی آمریکایی، لحن تهدیدآمیزی به خود گرفت. این موارد در مجموع باعث شده بسیاری از کارشناسان نسبت به سطح درک و تصمیمگیری مستقل مدلهای زبانی هشدار دهند.