چطور می‌توان هوش مصنوعی را مسموم کرد؟

مدل‌های هوش مصنوعی مانند چت جی پی تی و جمینای را می توان با قراردادن نمونه کوچکی از فایل های مخرب در داده های آموزشی مسموم کرد.

به گزارش خبرآنلاین، به نقل از مهر، یک تحقیق مشترک بین انستیتو امنیت هوش مصنوعی انگلیس، انستیتو آلن تورینگ و شرکت هوش مصنوعی آنتروپیک نشان داد حدود ۲۵۰ سند می‌توانند یک «در پشتی» ایجاد کنند که باعث می‌شود مدل‌های زبانی بزرگ متن‌های نامفهوم تولید کنند.

این شکاف از آن جهت نگران‌کننده است که بیشتر مدل‌های زبانی مشهور بر اساس متن‌های عمومی در سراسر اینترنت، از جمله وب‌سایت‌های شخصی و پست‌های وبلاگی، آموزش دیده‌اند. این موضوع موجب می‌شود هر کسی بتواند محتوایی تولید کند که وارد داده‌های آموزشی مدل‌های هوش مصنوعی شود.

آنتروپیک در یک پست وبلاگی درباره این موضوع نوشت: عاملان بد می‌توانند متن‌های خاصی را به این پست‌ها اضافه کنند تا یک مدل رفتارهای خطرناک یا نامطلوب را بیاموزد. این فرایند «مسموم‌سازی داده» نامیده می‌شود. یکی از انواع این حملات از طریق «درهای پشتی» انجام می‌شود. درهای پشتی اصطلاحات خاصی هستند که رفتاری ویژه را در مدل فعال می‌کنند، رفتاری که در حالت عادی پنهان است.

به عنوان مثال، مدل‌های زبانی بزرگ ممکن است به گونه‌ای آلوده شوند که وقتی مهاجم عبارتی خاص را در ورودی قرار می‌دهد، داده‌های حساس را فاش کنند. یافته‌های این پژوهش نگرانی‌هایی درباره امنیت هوش مصنوعی ایجاد کرده است و محققان معتقدند این موضوع می‌تواند پتانسیل استفاده از این فناوری را در کاربردهای حساس محدود کند.

۵۸۵۸

کد مطلب 2127217