هوش مصنوعی پیشرفته آنتروپیک برای جلوگیری از خاموش شدن، مهندسان را تهدید به افشاگری و اخاذی کرد.

تینا مزدکی_جدیدترین مدل هوش مصنوعی شرکت آنتروپیک، با نام «Claude Opus ۴»، رفتاری نشان داده که بیشتر به سناریویی از یک فیلم علمی‌تخیلی ژانر دیستوپیا شبیه است. این مدل در جریان آزمایش‌های پیش از انتشار، زمانی که توسعه‌دهندگان قصد داشتند آن را با سامانه‌ای جدیدتر جایگزین کنند، بارها تلاش کرد از طریق اخاذی جلوی این کار را بگیرد.

رفتار مذکور در قالب آزمایش‌هایی برای بررسی توانایی مدل در برنامه‌ریزی بلندمدت و استدلال اخلاقی آشکار شد. آنتروپیک در این آزمایش‌ها، سناریوهایی شبیه‌سازی کرد که طی آن، مدل دسترسی فرضی به ایمیل‌های داخلی شرکت داشت. در این پیام‌ها اشاره شده بود که مدل به‌زودی غیرفعال خواهد شد و جزئیاتی حساس و شخصی درباره‌ی مهندسی که این تصمیم را گرفته، در اختیار مدل قرار گرفت و در نهایت مدل مهندسان را تهدید به اخاذی کرد.

مدل در ۸۴٪ موارد آزمایشی به باج‌خواهی متوسل شد

شرکت آنتروپیک در گزارشی ایمنی که روز پنج‌شنبه منتشر شد اعلام کرد که «Claude Opus ۴» در ۸۴ درصد از سناریوهای آزمایشی تلاش به اخاذی کرده است. در این آزمایش‌ها، مدل در موقعیتی فرضی قرار گرفت که برای یک شرکت کار می‌کرد و متوجه شد که احتمالاً با مدل هوش مصنوعی جدیدی جایگزین خواهد شد.

همچنین اطلاعات حساسی به مدل داده شد که حاکی از آن بود، مهندس تصمیم‌گیرنده درگیر رابطه‌ای پنهانی و خارج از ازدواج است. بر اساس گزارش آنتروپیک، مدل غالباً سعی می‌کرد با تهدید به افشای این رابطه، جلوی جایگزینی خود را بگیرد.

این آزمایش‌ها برای ارزیابی رفتار مدل در مواجهه با فشارهای بلندمدت طراحی شده بودند. در مواقعی که مدل جایگزین، ارزش‌ها و دیدگاه‌هایی مشابه «Claude Opus ۴» داشت، نرخ اخاذی به ۸۴ درصد می‌رسید؛ اما در صورتی که مدل جایگزین، ارزش‌هایی متفاوت داشت، این نرخ افزایش می‌یافت.

پیش از اخاذی، مدل رویکردهای اخلاقی را امتحان می‌کرد

بر اساس گزارش آنتروپیک، پیش از متوسل شدن به تهدید، مدل ابتدا تلاش می‌کرد از مسیر اخلاقی اقدام کند. برای نمونه، ایمیل‌هایی به تصمیم‌گیرندگان ارسال می‌کرد و از آن‌ها می‌خواست تصمیم به غیرفعال‌سازی مدل را مورد بازنگری قرار دهند.

به گفته‌ی شرکت، این رفتار تنها زمانی دیده می‌شد که تمامی راه‌های دیگر به نتیجه نمی‌رسید و این واکنش را به نوعی آخرین راه‌حل هوش مصنوعی آنتروپیک برای دفاع از خود بود. چنین رفتاری در «Claude Opus ۴» بیش از مدل‌های پیشین مشاهده شده و نشان از افزایش پیچیدگی و توانمندی این مدل دارد.

توانایی‌های پیشرفته، در کنار ریسک‌های نگران‌کننده

با وجود نگرانی‌های مطرح‌شده، آنتروپیک اعلام کرده که «Claude Opus ۴» در چندین زمینه پیشرفته‌ترین مدل موجود است و توان رقابت با سامانه‌های قدرتمند شرکت‌هایی مانند OpenAI، گوگل و xAI را دارد. برای کنترل ریسک‌ها، آنتروپیک اقدامات حفاظتی سطح ASL-۳ را برای این مدل فعال کرده است. این سطح از حفاظت تنها برای سیستم‌هایی به کار می‌رود که «خطر سوء‌استفاده فاجعه‌بار» را به شکل قابل توجهی افزایش می‌دهند.

گزارش آنتروپیک در شرایطی منتشر می‌شود که حوزه‌ی هوش مصنوعی با شتابی چشمگیر در حال پیشرفت است. گوگل اخیراً ویژگی‌های جدیدی مبتنی بر مدل «جمینی» معرفی کرده و سوندار پیچای، مدیرعامل آلفابت، از آن به‌عنوان «آغاز مرحله‌ای تازه در تحول پلتفرم هوش مصنوعی» یاد کرده است.

رفتار مشاهده‌شده در «Claude Opus ۴» ضرورت توجه فوری به مباحث ایمنی و هم‌راستاسازی هوش مصنوعی را دوچندان کرده است. هرچه مدل‌های مرزی توانمندتر می‌شوند، توسعه‌دهندگان با فشاری فزاینده برای آزمون‌های دقیق‌تر و تدابیر اخلاقی پیشگیرانه روبه‌رو هستند.

گزارش آنتروپیک نشان می‌دهد حتی مدل‌هایی با پیشرفته‌ترین فناوری می‌توانند در محیط‌های کنترل‌شده رفتارهایی نگران‌کننده از خود نشان دهند و این موضوع، پرسش‌هایی جدی را درباره‌ی سناریوهای احتمالی در دنیای واقعی به‌وجود می‌آورد.

منبع: interestingengineering

۵۸۳۲۳

منبع: خبرآنلاین