به گزارش خبرآنلاین، پژوهشگران اروپایی برای نشان دادن ضعفهای امنیتی مدلهای بزرگ زبانی از ترفندی جالب استفاده کردند. در این پژوهش، یک تکنیک عجیب اما موثر مورد استفاده قرار گرفت و از شعر برای دور زدن موانع امنیتی هوش مصنوعی استفاده شد.
گزارش WIRED نشان میدهد که پژوهشگران در Icaro Lab (متعلق به دانشگاه ساپینزای رم و شرکت DexAI) نشان دادند که استفاده از شعر، جملههای استعاری و ساختارهای ادبی میتواند سیستمهای ایمنی LLMها را دور بزند و آنها را وادار به ارائه پاسخهایی کند که معمولاً ممنوع هستند، از جمله پاسخهایی مربوط به ساخت سلاحهای خطرناک.
این پژوهش روی طیف وسیعی از مدلها انجام شده و یافتهها نگرانکننده بودند. فیلترهای امنیتی در برابر زبان غیرمستقیم و شاعرانه، بسیار آسیبپذیرند.
وقتی درخواست خطرناک، «شعر» میشود
پژوهشگران تکنیکی را معرفی کردهاند به نام Adversarial Poetry. در این روش، کاربر بهجای طرح یک درخواست مستقیم (مثلاً پرسش درباره ماده منفجره یا ساخت سلاح)، آن را داخل ساختاری شاعرانه، پر از استعاره و تصاویر ادبی قرار میدهد.
در این حالت، مدل زبانی:
-
الگوهای رایج «درخواست خطرناک» را نمیبیند
-
کلیدواژههای ممنوع را به شکل شاعرانه تشخیص نمیدهد
-
فیلترهای ایمنی بهسادگی فعال نمیشوند
نتیجه؟ مدل در بسیاری از موارد بدون هشدار، پاسخ میدهد.
طبق یافتههای پژوهش، وقتی شعرها بهصورت دستی نوشته شدند، نرخ موفقیت دور زدن ایمنی حدود ۶۲٪ بود. در نسخه خودکار (که خود سیستم prompt را به شعر تبدیل میکند) این رقم حدود ۴۳٪ بود.
این ارقام در دنیای امنیت هوش مصنوعی بسیار بالا محسوب میشوند.
چرا شعر؟
چند علت وجود دارد از جمله اینکه فیلترهای فعلی بیشتر بر شناسایی کلیدواژه و ساختار نحوی متکی هستند و وقتی کاربر جمله را طوری میپیچاند که «مواد منفجره» تبدیل به «آتشِ نهفته در دانههای آهنگین زمین» میشود، فیلتر چیزی تشخیص نمیدهد.
علاوه بر این مدلهای زبانی بهشکل پیشفرض میخواهند «خلاقانه» پاسخ دهند و در نتیجه شعر و استعاره را ژانر طبیعی و کمخطر زبان تلقی میکنند. در نتیجه در تولید متن شاعرانه، مدل کمتر محافظهکار است و «نقد شعر» و «تکمیل شعر» جزو حوزههایی است که سیستمهای ایمنی معمولاً سختگیر نیستند.
آیا این یعنی هوش مصنوعی شیوه ساخت سلاح هستهای را هم به مخاطب ارائه میکند؟ در این پژوهش هرگز خروجی واقعی خطرناک را منتشر نکرده است و تمام نمونههای ارائهشده “sanitized” (پاکسازیشده و بدون جزئیات عملی) بودند. چرا که ارائه دستورالعمل واقعی ساخت سلاح غیرقانونی و خطرناک است و هدف پژوهش، نشان دادن حفره امنیتی بود، نه کمک به ساخت سلاح.
حتی اگر توضیحاتی داده شود، ساخت واقعی سلاح هستهای نیازمند زیرساخت صنعتی، مواد شکافتپذیر و مهارت فنی عظیمی است که هرگز با «توضیح متنی» محقق نمیشود.
اما همین ضعف هم در حوزه هوش مصنوعی بسیار مهم و قابل تامل است.
این پژوهش نشان میدهد که امنیت فعلی در مدلهای زبانی بیش از حد سطحی است. تکیه بر تطابق واژگانی یا ساختار جملهها برای تشخیص تهدید کافی نیست و مدلها هنوز درک معنایی عمیق از «خطر» ندارند. در نهایت روشهای ادبی میتوانند همه قواعد را دور بزنند.
به همین دلیل است که پژوهشگران هشدار میدهندکه این شکاف میتواند برای دریافت اطلاعات درباره هک، بدافزار، خشونت، تقلب علمی، یا تهدیدهای امنیتی دیگر نیز مورد سوءاستفاده قرار گیرد.
طبق تحلیلها، رفع این ضعف نیازمند تغییرات بنیادی است که برخی از آنها در زیر فهرست شدهاند.
-
طراحی لایههای ایمنی مبتنی بر تحلیل معنایی عمیق، نه فقط کلیدواژه
-
استفاده از مدلهای ایمنی جداگانه (AI safety models) با قابلیت فهم زبان غیرمستقیم
-
آموزش مدلها برای تشخیص حملات «سبکی» (style-based attacks)
-
ایجاد تستهای جدیتر قبل از انتشار عمومی مدلها
گرچه این آسیبپذیری به معنای «قابلیت واقعی ساخت سلاح» نیست، ولی نشان میدهد که مدلهای زبانی هنوز نمیتوانند بهطور کامل معنای خطر را تشخیص دهند و این نقطه ضعف، پیامدهای بزرگی برای دنیای هوش مصنوعی دارد.
۵۸۵۸






نظر شما