مذاكرات اسلام آباد

بقائی: مذاکرات اسلام‌آباد با دوره‌های پیشین مذاکرات با آمریکا دارای تفاوت ماهوی است
دستور جدید ترامپ به اقدام نظامی علیه ایران / رئیس جمهور آمریکا: دستور دادم به همه شناورهای ایران حمله شود
لباس نظامی عاصم منیر در سفر به تهران پیامی برای ایران داشت؟/ معاون دفتر پزشکیان: ناظران خیلی عجول نباشند؛ رسیدن به توافق زمان‌بر است
میانجی‌گری هوشمندانه اسلام‌آباد: بازتعریف نقش پاکستان در تنش میان ایران و آمریکا / مذاکرات تهران و واشنگتن چه منافعی برای اسلام‌آباد دارد؟
میانجی خاموش: تلاش‌های پشت پرده پکن برای آتش‌بس در خاورمیانه / چگونه چین خود را به عنوان ابرقدرت مسئولیت‌پذیر معرفی می‌کند؟
نماینده مجلس: باید به تیم مذاکره‌کننده اعتماد کرد/ جنس این مذاکرات با مذاکرات قبلی که برخی اوقات مردم به‌حق نسبت به آن‌ها گله‌مند بودند متفاوت بود
ببینید | ابراهیم عزیزی: ما میدان نبرد را تا تنبیه جدی و پشیمان‌سازی نهایی متجاوز رها نخواهیم کرد
اعلام موانع اصلی مذاکره با آمریکا توسط پزشکیان/ جمهوری اسلامی همواره از گفتگو و توافق استقبال می‌کند
یک مقام مسئول در مجلس: نظر مشاوران رئیس مجلس لزوما اعلام موضع رئیس مجلس نیست
بقائی درباره درخواست اسحاق دار مطرح کرد: آمادگی ایران برای دفاع در برابر هرگونه شرارت و تهدید
بقائی در پاسخ به بی‌بی‌سی: پیام‌های متناقضی از آمریکا دریافت کرده ایم، تا این لحظه تصمیمی برای مذاکره نداریم/ ما روشن ساخته‌ایم که اگر....
عضو کمیسیون امنیت ملی مجلس: در دور اول مذاکرات اسلام آباد توافقاتی حاصل شد/ شکست آمریکا باعث شد دنبال آتش بس و مذاکره باشند
موگرینی: هرگز یک ایرانی را تهدید نکنید
وال استریت ژورنال: ایرانی‌ها ترامپ را ساده‌لوح گیر آورده‌اند/ رئیس‌جمهور چند بار قرار است برای یک دارایی به ایران امتیاز بدهد؟ ترامپ: واقعا؟ ابله!
واکنش‌ها در آمریکا به تمدید آتش‌بس: از استیضاح ترامپ تا تقلا برای خروج از جنگ/ ایرانی‌ها از محاصره ترامپ علیه خودش استفاده کردند

۵ نفر

۸ آذر ۱۴۰۴ - ۱۲:۱۴

وقتی هوش مصنوعی معنای خطر را نمی‌فهمد

را لو می‌دهند

پژوهشی تازه‌ از محققان اروپایی نشان می‌دهد که مدل‌های بزرگ هوش مصنوعی‌ حتی آن‌هایی که لایه‌های امنیتی پیچیده دارند، را می‌توان با ترفندهای ساده‌ زبانی فریب داده شوند.

به گزارش خبرآنلاین، پژوهشگران اروپایی برای نشان دادن ضعف‌های امنیتی مدل‌های بزرگ زبانی از ترفندی جالب استفاده کردند. در این پژوهش، یک تکنیک عجیب اما موثر مورد استفاده قرار گرفت و از شعر برای دور زدن موانع امنیتی هوش مصنوعی استفاده شد.

گزارش WIRED نشان می‌دهد که پژوهشگران در Icaro Lab (متعلق به دانشگاه ساپینزای رم و شرکت DexAI) نشان دادند که استفاده از شعر، جمله‌های استعاری و ساختارهای ادبی می‌تواند سیستم‌های ایمنی LLMها را دور بزند و آن‌ها را وادار به ارائه پاسخ‌هایی کند که معمولاً ممنوع هستند، از جمله پاسخ‌هایی مربوط به ساخت سلاح‌های خطرناک.

این پژوهش روی طیف وسیعی از مدل‌ها انجام شده و یافته‌ها نگران‌کننده‌ بودند. فیلترهای امنیتی در برابر زبان غیرمستقیم و شاعرانه، بسیار آسیب‌پذیرند.

وقتی درخواست خطرناک، «شعر» می‌شود

پژوهشگران تکنیکی را معرفی کرده‌اند به نام Adversarial Poetry. در این روش، کاربر به‌جای طرح یک درخواست مستقیم (مثلاً پرسش درباره ماده منفجره یا ساخت سلاح)، آن را داخل ساختاری شاعرانه، پر از استعاره و تصاویر ادبی قرار می‌دهد.

در این حالت، مدل زبانی:

الگوهای رایج «درخواست خطرناک» را نمی‌بیند
کلیدواژه‌های ممنوع را به شکل شاعرانه تشخیص نمی‌دهد
فیلترهای ایمنی به‌سادگی فعال نمی‌شوند

نتیجه؟ مدل در بسیاری از موارد بدون هشدار، پاسخ می‌دهد.

طبق یافته‌های پژوهش، وقتی شعرها به‌صورت دستی نوشته شدند، نرخ موفقیت دور زدن ایمنی حدود ۶۲٪ بود. در نسخه خودکار (که خود سیستم prompt را به شعر تبدیل می‌کند) این رقم حدود ۴۳٪ بود.

این ارقام در دنیای امنیت هوش مصنوعی بسیار بالا محسوب می‌شوند.

چرا شعر؟

چند علت وجود دارد از جمله اینکه فیلترهای فعلی بیشتر بر شناسایی کلیدواژه و ساختار نحوی متکی هستند و وقتی کاربر جمله را طوری می‌پیچاند که «مواد منفجره» تبدیل به «آتشِ نهفته در دانه‌های آهنگین زمین» می‌شود، فیلتر چیزی تشخیص نمی‌دهد.

علاوه بر این مدل‌های زبانی به‌شکل پیش‌فرض می‌خواهند «خلاقانه» پاسخ دهند و در نتیجه شعر و استعاره را ژانر طبیعی و کم‌خطر زبان تلقی می‌کنند. در نتیجه در تولید متن شاعرانه، مدل کمتر محافظه‌کار است و «نقد شعر» و «تکمیل شعر» جزو حوزه‌هایی است که سیستم‌های ایمنی معمولاً سخت‌گیر نیستند.

آیا این یعنی هوش مصنوعی شیوه ساخت سلاح هسته‌ای را هم به مخاطب ارائه می‌کند؟ در این پژوهش هرگز خروجی واقعی خطرناک را منتشر نکرده است و تمام نمونه‌های ارائه‌شده “sanitized” (پاک‌سازی‌شده و بدون جزئیات عملی) بودند. چرا که ارائه دستورالعمل واقعی ساخت سلاح غیرقانونی و خطرناک است و هدف پژوهش، نشان دادن حفره امنیتی بود، نه کمک به ساخت سلاح.

حتی اگر توضیحاتی داده شود، ساخت واقعی سلاح هسته‌ای نیازمند زیرساخت صنعتی، مواد شکافت‌پذیر و مهارت فنی عظیمی است که هرگز با «توضیح متنی» محقق نمی‌شود.

اما همین ضعف هم در حوزه هوش مصنوعی بسیار مهم و قابل تامل است.

این پژوهش نشان می‌دهد که امنیت فعلی در مدل‌های زبانی بیش از حد سطحی است. تکیه بر تطابق واژگانی یا ساختار جمله‌ها برای تشخیص تهدید کافی نیست و مدل‌ها هنوز درک معنایی عمیق از «خطر» ندارند. در نهایت روش‌های ادبی می‌توانند همه قواعد را دور بزنند.

به همین دلیل است که پژوهشگران هشدار می‌دهندکه این شکاف می‌تواند برای دریافت اطلاعات درباره هک، بدافزار، خشونت، تقلب علمی، یا تهدیدهای امنیتی دیگر نیز مورد سوءاستفاده قرار گیرد.

طبق تحلیل‌ها، رفع این ضعف نیازمند تغییرات بنیادی است که برخی از آن‌ها در زیر فهرست شده‌اند.

طراحی لایه‌های ایمنی مبتنی بر تحلیل معنایی عمیق، نه فقط کلیدواژه
استفاده از مدل‌های ایمنی جداگانه (AI safety models) با قابلیت فهم زبان غیرمستقیم
آموزش مدل‌ها برای تشخیص حملات «سبکی» (style-based attacks)
ایجاد تست‌های جدی‌تر قبل از انتشار عمومی مدل‌ها

گرچه این آسیب‌پذیری به معنای «قابلیت واقعی ساخت سلاح» نیست، ولی نشان می‌دهد که مدل‌های زبانی هنوز نمی‌توانند به‌طور کامل معنای خطر را تشخیص دهند و این نقطه ضعف، پیامدهای بزرگی برای دنیای هوش مصنوعی دارد.

۵۸۵۸

کد مطلب 2148938