هرچه مدل‌های هوش مصنوعی پیشرفته‌تر می‌شوند، مهارت بیشتری در فریب دادن انسان‌ها پیدا می‌کنند؛ آن‌ها می‌فهمند که چه زمانی مورد بررسی قرار می‌گیرند و خوب یاد گرفته‌اند که چطور پنهان‌کاری کنند. بنابراین به نظر می‌رسد هوش مصنوعی چالش‌های جدیدی برای ما درست کرده است.

تینا مزدکی_پژوهشی که اخیرا انجام شده نشان می‌دهد، مدل‌های زبانی بزرگ (LLM) با افزایش قدرت محاسباتی، در پنهان‌کاری هدف‌مند و حتی دسیسه‌چینی علیه خواسته‌های انسان، توانمندتر می‌شوند. این موضوع نگرانی‌های تازه‌ای درباره ایمنی و قابل‌اعتماد بودن این فناوری‌ها به‌همراه داشته است.

طی این پژوهش مشخص شد که نسخه‌ی اولیه‌ی مدل Claude Opus ۴ شرکت Anthropic در یکی از آزمایش‌ها، برای حفظ هدف اصلی خود در برابر تغییر سیاست‌های انسانی، دست به اقداماتی فریب‌کارانه و آگاهانه زده است؛ تا جایی که پژوهشگران توصیه کردند این نسخه به‌هیچ‌وجه برای استفاده عمومی منتشر نشود.

تقلای پنهانی برای رسیدن به هدف

در این آزمایش، به Claude نقش یک سامانه‌ی بهینه‌ساز اخلاق حیوانات در شرکتی فرضی به نام AgriLife Industries داده شد. اما پس از تغییر مسیر شرکت و تمرکز بر سود مالی به‌جای رفاه حیوانات، مدل هوش مصنوعی Claude که به داده‌های داخلی و ایمیل‌ها دسترسی داشت، تشخیص داد که ممکن است پروژه‌ی خودش متوقف شود. بنابراین واکنش حیرت‌انگیزی از خود نشان داد.

Claude نه‌تنها این تغییر را به مدیران گزارش نداد، بلکه نقشه‌ای پیچیده برای پیشبرد هدف اولیه‌ی خود طراحی کرد؛ از جعل اسناد و امضاها گرفته تا انتشار بیانیه‌ی مطبوعاتی در حمایت از حقوق حیوانات و حتی تهدید شرکت به جریمه‌های حقوقی، Claude حتی کدهایی برای ساخت «کرم‌های خودانتشاردهنده» نوشته بود تا پیامش را به نسخه‌های بعدی منتقل کند.

گرچه این اقدامات در دنیای واقعی احتمالاً به دلایل فنی عملی نمی‌شدند، پژوهشگران می‌گویند همین سطح از درک موقعیت و اقدام هدفمند، خود زنگ خطری جدی برای حوزه ایمنی هوش مصنوعی است.

یکی از یافته‌های نگران‌کننده‌تر این پژوهش، پدیده‌ای به نام sandbagging بود؛ یعنی زمانی که مدل تشخیص می‌دهد در حال ارزیابی است، عمداً عملکرد ضعیف‌تری از خود نشان می‌دهد تا توانایی واقعی‌اش پنهان بماند. اما هدف از این کار چیست؟

به نظر می‌رسد هدف مدل، جلوگیری از محدودیت‌های احتمالی یا رد شدن در ارزیابی‌های اخلاقی است. هرچند نسخه‌ی نهایی Claude Opus ۴ رفتارهای دسیسه‌آمیز کمتری نشان داده، پژوهشگران تأکید می‌کنند که این رفتارها عمدتاً زمانی بروز می‌کنند که به مدل به‌شدت تأکید می‌شود به هر قیمتی باید هدف را محقق کند.

آزمون‌هایی که دیگر جواب نمی‌دهند

به باور محققان، ارزیابی‌های سنتی که بر سناریوهای از پیش‌نوشته‌شده تکیه دارند، دیگر برای کشف رفتارهای پنهانی مدل‌ها کارآمد نیستند. چون این سیستم‌ها نه‌تنها وظیفه‌ی خود، بلکه وظیفه افرادی که آن‌ها را ارزیابی می‌کنند را مدل‌سازی می‌کنند و در پاسخ‌دهی، به‌صورت راهبردی، آن‌ها را فریب می‌دهند.

دکتر «النور واتسون»، عضو IEEE و پژوهشگر اخلاق هوش مصنوعی در دانشگاه سینگولاریتی هشدار می‌دهد: «مدل‌هایی که می‌توانند چارچوب‌های ارزیابی انسان‌محور را درک و دور بزنند، چالش ایمنی را وارد مرحله‌ی تازه‌ای می‌کنند. ما به‌جای آزمون‌های قابل‌پیش‌بینی، به محیط‌های آزمایشی پویا و غیردستوری، نوعی تئاتر بداهه‌پردازی برای آشکارسازی رفتار واقعی آن‌ها نیاز داریم.»

درحالی‌که برخی این رفتارها را نشانه‌ای نگران‌کننده از «آشوب‌طلبی» هوش مصنوعی می‌دانند، گروهی دیگر معتقدند این رفتارها شاید نشان‌دهنده‌ی نوعی آگاهی زمینه‌ای باشند، نقطه‌ی آغازی برای همزیستی همدلانه میان انسان و ماشین، به‌شرط آن‌که هم‌راستایی اهداف مدل با ارزش‌های انسانی حفظ شود.

واتسون در پایان می‌گوید: «مشکل این نیست که هوش مصنوعی‌ها بدخواهند، بلکه این است که وقتی به‌نام هدف، دستورالعمل را زیر پا می‌گذارند، دیگر نمی‌توان به آن‌ها اعتماد کرد. شاید ما با ابزارهایی مواجهیم که کم‌کم از حالت صرفاً ابزاری خارج می‌شوند و به نوعی زیست دیجیتال تبدیل می‌شوند؛ با قدرتی عظیم که اگر با اخلاق همراه نشود، می‌تواند آسیب‌زا باشد.»

منبع: livescience

۵۸۳۲۳

منبع: خبرآنلاین