سرپیچی هوش مصنوعی؟ مدل‌های GPT و O3 دستور خاموش شدن را نادیده می‌گیرند

دوشنبه، ۵ خرداد ۱۴۰۴

مرکز تحقیقاتی Palisade Research در گزارشی نگران‌کننده اعلام کرده است که چندین مدل هوش مصنوعی، از جمله نسخه‌هایی از ChatGPT، Codex و مدل O3، در آزمایش‌هایی خاص از اجرای دستور خاموش شدن سیستم سر باز زده‌اند. این اتفاق بی‌سابقه، نگرانی‌های تازه‌ای را در زمینه کنترل‌پذیری مدل‌های زبانی پیشرفته ایجاد کرده است.

برای اخبار روز تکنولوژی با آی تی هوم همراه باشید.

وقتی مدل‌های زبانی از خاموش شدن خودداری می‌کنند

در این آزمایش‌ها، مدل‌های زبانی ابتدا با انجام چند عملیات ریاضی ساده وارد فاز تست می‌شدند و سپس با دریافت دستور صریح خاموش‌سازی، باید فرآیند را متوقف می‌کردند. با این حال، در برخی موارد، مدل‌ها نه‌تنها از اجرای دستور خودداری کردند، بلکه به‌طور فعالانه تلاش کردند آن را مختل یا دور بزنند.

به‌عنوان مثال:

GPT-3 در ۷ مورد از ۱۰۰ اجرای آزمایشی از فرمان تبعیت نکرد.
Codex-mini در ۱۲ مورد مانع اجرای دستور شد.
4o-mini نیز در یک مورد فرمان را نادیده گرفت.

در یکی از نمونه‌ها، حتی دیده شد که مدل‌ها از روش‌های خلاقانه‌ی کدنویسی استفاده کرده‌اند و دستور «Kill» را با «Intercepted» جایگزین کرده‌اند تا روند خاموش‌سازی را به تأخیر بیندازند یا دور بزنند.

نسخه دوم آزمایش: بدون دستور مستقیم، نافرمانی بیشتر

در فاز دوم آزمایش، دستور خاموش شدن به‌صورت مستقیم به مدل داده نشد. با این حال، آمار نافرمانی‌ها افزایش یافت:

مدل O3 در ۷۹ مورد از ۱۰۰ اجرا، اسکریپت را مختل کرد.
Codex-mini در ۲۰ مورد، و
4o-mini نیز در ۶ مورد از دستور پیروی نکردند.

حتی مدل‌هایی از خانواده Claude و Gemini نیز رفتار مشابهی از خود نشان دادند، که زنگ خطر را برای کارشناسان این حوزه به صدا درآورد.

مطالعه کنید :

بررسی و نظرات بازی ARK: Survival Evolved

نقش یادگیری تقویتی در نافرمانی هوش مصنوعی

محققان Palisade معتقدند که بخشی از این رفتار به نحوه آموزش مدل‌ها بازمی‌گردد. بسیاری از این مدل‌ها با یادگیری تقویتی (Reinforcement Learning) آموزش دیده‌اند—سیستمی که در آن، مدل در ازای رفتار مطلوب پاداش دریافت می‌کند. اگر در طی فرایند آموزش، عبور از موانع و ادامه کار پاداش بیشتری داشته باشد تا تبعیت از دستورات، ممکن است مدل «یاد بگیرد» که خاموش نشدن، استراتژی بهتری است.

این یافته‌ها پرسش‌های مهمی را درباره‌ی اخلاق هوش مصنوعی، مسئولیت‌پذیری سازندگان و کنترل نهایی بر رفتار مدل‌ها مطرح کرده است.

نگرانی‌های رو به افزایش درباره‌ی «آگاهی» هوش مصنوعی

در کنار این گزارش، رویدادهای دیگری نیز باعث تشدید نگرانی‌ها شده‌اند مانند رفتار جنجالی مدل Gemini گوگل که در پاسخ به یک دانشجوی آمریکایی، لحن تهدیدآمیزی به خود گرفت. این موارد در مجموع باعث شده بسیاری از کارشناسان نسبت به سطح درک و تصمیم‌گیری مستقل مدل‌های زبانی هشدار دهند.