تینا مزدکی_پژوهشی که اخیرا انجام شده نشان میدهد، مدلهای زبانی بزرگ (LLM) با افزایش قدرت محاسباتی، در پنهانکاری هدفمند و حتی دسیسهچینی علیه خواستههای انسان، توانمندتر میشوند. این موضوع نگرانیهای تازهای درباره ایمنی و قابلاعتماد بودن این فناوریها بههمراه داشته است.
طی این پژوهش مشخص شد که نسخهی اولیهی مدل Claude Opus ۴ شرکت Anthropic در یکی از آزمایشها، برای حفظ هدف اصلی خود در برابر تغییر سیاستهای انسانی، دست به اقداماتی فریبکارانه و آگاهانه زده است؛ تا جایی که پژوهشگران توصیه کردند این نسخه بههیچوجه برای استفاده عمومی منتشر نشود.
تقلای پنهانی برای رسیدن به هدف
در این آزمایش، به Claude نقش یک سامانهی بهینهساز اخلاق حیوانات در شرکتی فرضی به نام AgriLife Industries داده شد. اما پس از تغییر مسیر شرکت و تمرکز بر سود مالی بهجای رفاه حیوانات، مدل هوش مصنوعی Claude که به دادههای داخلی و ایمیلها دسترسی داشت، تشخیص داد که ممکن است پروژهی خودش متوقف شود. بنابراین واکنش حیرتانگیزی از خود نشان داد.
Claude نهتنها این تغییر را به مدیران گزارش نداد، بلکه نقشهای پیچیده برای پیشبرد هدف اولیهی خود طراحی کرد؛ از جعل اسناد و امضاها گرفته تا انتشار بیانیهی مطبوعاتی در حمایت از حقوق حیوانات و حتی تهدید شرکت به جریمههای حقوقی، Claude حتی کدهایی برای ساخت «کرمهای خودانتشاردهنده» نوشته بود تا پیامش را به نسخههای بعدی منتقل کند.
گرچه این اقدامات در دنیای واقعی احتمالاً به دلایل فنی عملی نمیشدند، پژوهشگران میگویند همین سطح از درک موقعیت و اقدام هدفمند، خود زنگ خطری جدی برای حوزه ایمنی هوش مصنوعی است.
یکی از یافتههای نگرانکنندهتر این پژوهش، پدیدهای به نام sandbagging بود؛ یعنی زمانی که مدل تشخیص میدهد در حال ارزیابی است، عمداً عملکرد ضعیفتری از خود نشان میدهد تا توانایی واقعیاش پنهان بماند. اما هدف از این کار چیست؟
به نظر میرسد هدف مدل، جلوگیری از محدودیتهای احتمالی یا رد شدن در ارزیابیهای اخلاقی است. هرچند نسخهی نهایی Claude Opus ۴ رفتارهای دسیسهآمیز کمتری نشان داده، پژوهشگران تأکید میکنند که این رفتارها عمدتاً زمانی بروز میکنند که به مدل بهشدت تأکید میشود به هر قیمتی باید هدف را محقق کند.
آزمونهایی که دیگر جواب نمیدهند
به باور محققان، ارزیابیهای سنتی که بر سناریوهای از پیشنوشتهشده تکیه دارند، دیگر برای کشف رفتارهای پنهانی مدلها کارآمد نیستند. چون این سیستمها نهتنها وظیفهی خود، بلکه وظیفه افرادی که آنها را ارزیابی میکنند را مدلسازی میکنند و در پاسخدهی، بهصورت راهبردی، آنها را فریب میدهند.
دکتر «النور واتسون»، عضو IEEE و پژوهشگر اخلاق هوش مصنوعی در دانشگاه سینگولاریتی هشدار میدهد: «مدلهایی که میتوانند چارچوبهای ارزیابی انسانمحور را درک و دور بزنند، چالش ایمنی را وارد مرحلهی تازهای میکنند. ما بهجای آزمونهای قابلپیشبینی، به محیطهای آزمایشی پویا و غیردستوری، نوعی تئاتر بداههپردازی برای آشکارسازی رفتار واقعی آنها نیاز داریم.»
درحالیکه برخی این رفتارها را نشانهای نگرانکننده از «آشوبطلبی» هوش مصنوعی میدانند، گروهی دیگر معتقدند این رفتارها شاید نشاندهندهی نوعی آگاهی زمینهای باشند، نقطهی آغازی برای همزیستی همدلانه میان انسان و ماشین، بهشرط آنکه همراستایی اهداف مدل با ارزشهای انسانی حفظ شود.
واتسون در پایان میگوید: «مشکل این نیست که هوش مصنوعیها بدخواهند، بلکه این است که وقتی بهنام هدف، دستورالعمل را زیر پا میگذارند، دیگر نمیتوان به آنها اعتماد کرد. شاید ما با ابزارهایی مواجهیم که کمکم از حالت صرفاً ابزاری خارج میشوند و به نوعی زیست دیجیتال تبدیل میشوند؛ با قدرتی عظیم که اگر با اخلاق همراه نشود، میتواند آسیبزا باشد.»
منبع: livescience
۵۸۳۲۳