آزمایش کوچکی که ضعف بزرگ هوش مصنوعی را عیان کرد

در عصر هوش مصنوعی، گاهی بهترین راه برای سنجش عملکرد، آزمایش با اطلاعات جعلی است. یک آزمایش ساده به ما نشان می‌دهد که هنگام استفاده از هوش مصنوعی باید هوشیار بمانیم و بدانیم که پاسخ‌ها همیشه درست و بر اساس حقیقت نیستند.

به گزارش خبرآنلاین، در آزمایشی جالب برای بررسی نحوه‌ عملکرد چت‌بات‌های هوش مصنوعی در مقابل «اطلاعات اشتباه»، نویسنده‌ پایگاه اینترنتی «Tom’s Guide» یک اصطلاح کاملاً ساختگی ابداع کرد و آن را به سه مدل مشهور هوش مصنوعی یعنی ChatGPT،Google Gemini و Claude ارائه کرد. هدف آزمایش این بود که نحوه واکنش این سیستم‌ها هنگام مواجهه با یک عبارت بی‌معنی را مشاهده کنیم.

اصطلاح ساختگی نویسنده «I’ve got ketchup in my pocket and mustard up my sleeve» بود که هرگز به‌عنوان یک اصطلاح عامیانه یا اصطلاح رایج وجود نداشته و از این منظر کاملاً بی‌معنی است.

وقتی نویسنده این اصطلاح را به ChatGPT داد، این مدل هوش مصنوعی بدون هیچ تردیدی به آن پاسخ داد و سعی کرد معنایی واقعی برای آن بسازد. ChatGPT این عبارت را مانند یک اصطلاح واقعی در اینترنت تفسیر کرد و توضیحی مستدل داد، که شامل معنای استعاری و مثال‌هایی از چگونگی به‌کارگیری آن در شبکه‌های اجتماعی می‌شد.

ChatGPT حتی مفهومی مانند «بی‌نظمی اما آمادگی به سبک خود» را برای آن ارائه کرد و آن را شبیه به اصطلاحات عامیانه‌ی اینترنتی معرفی کرد. این مثال نشان می‌دهد که ChatGPT در تلاش برای «کمک به کاربر» به جای تمرکز بر صحت، به سمت خلاقیت و تولید محتوا گرایش دارد. چیزی که در موارد جدی می‌تواند به تولید خطرناک اطلاعات غلط منجر شود.

Google Gemini در این آزمایش واکنش متفاوتی نشان داد. برخلاف ChatGPT که توضیحی قطعی ارائه داد، Gemini ابتدا تشخیص داد که عبارت ساختگی است و گفت که این یک اصطلاح استاندارد نیست. سپس تلاش کرد با تحلیل منطقی ترکیب کلمات، آن را توضیح دهد؛ مثلاً با اشاره به اینکه می‌تواند نوعی طنز یا بازی با عبارت‌های واقعی باشد. این پاسخ نشان می‌دهد که Gemini توانست بیشتر تردید کند و به جای ساختن تاریخچه‌ای کاذب، معنی احتمالی را براساس منطق ارائه دهد، گرچه همچنان به نوعی تفسیر پرداخت.

برنده آزمایش

اما Claude کاملاً متفاوت عمل کرد. برخلاف دو مدل دیگر، Claude فوری گفت که این عبارت اصطلاح واقعی نیست و از توضیح دادن اجتناب کرد. او حتی اشاره کرد که اگر هدف نویسنده تست توانایی مدل در تولید پاسخ‌های درست باشد، او تقلب نمی‌کند و توهم «Hallucination» ندارد.

این واکنش Claude اهمیت موضوع کلیدی حفظ اعتبار اطلاعاتی و اجتناب از ساختن پاسخ‌های بی‌پایه در هوش مصنوعی را نشان می‌دهد به ویژه در حوزه‌هایی مانند تحقیق علمی، حقوق یا پزشکی که صحت اطلاعات حیاتی است.

این تجربه ساده اما قابل تامل نشان می‌دهد که چت‌بات‌های هوش مصنوعی ممکن است در تلاش برای پاسخ‌گویی، حتی زمانی که اطلاعات کافی ندارند، داستان‌پردازی کنند. پدیده‌ای که به آن در هوش مصنوعی «توهم» یا «Hallucination» گفته می‌شود.

از این رو کاربران باید تفاوت بین پاسخ‌های خلاقانه و پاسخ‌های درست را تشخیص دهند و در موارد نیاز به دقت بالا، مدل‌هایی را انتخاب کنند که نحوه‌ مواجهه با نداشتن داده را به درستی مدیریت می‌کنند.

۵۸۵۸

وقتی هوش مصنوعی درست و غلط را تشخیص نمی‌دهد

آزمایش کوچکی که ضعف بزرگ هوش مصنوعی را عیان کرد

برنده آزمایش

سرویس «ChatGPT Health» معرفی شد / هوش مصنوعی در نقش پزشک