بالاخره انسان هوش مصنوعی را شکست داد

پژوهشی تازه نشان داده است که هوش مصنوعی (AI) در انجام مجموعه‌ای از وظایفی که اکثر انسان‌ها به‌راحتی از عهده‌ی آن‌ها برمی‌آیند، دچار مشکل است.

به گزارش خبرآنلاین، پژوهشگران این کاستی‌های غیرمنتظره را در کنفرانس بین‌المللی «بازنمایی‌های یادگیری» سال ۲۰۲۵ (ICLR ۲۰۲۵) ارائه دادند. همچنین یافته‌هایشان در تاریخ ۱۸ مارس در پایگاه پیش‌چاپ arXiv منتشر شده است. این مقاله هنوز تحت داوری همتا قرار نگرفته است.

سرگروه این پژوهش روهیت ساکسنا، پژوهشگر دانشگاه ادینبرا، در بیانیه‌ای گفت:«بیشتر مردم از سنین پایین قادر به تشخیص زمان و استفاده از تقویم هستند. یافته‌های ما شکاف قابل‌توجهی را در توانایی هوش مصنوعی برای انجام مهارت‌هایی که برای انسان‌ها بسیار پایه‌ای تلقی می‌شوند، برجسته می‌کند. اگر قرار است سیستم‌های هوش مصنوعی به‌طور موفق در کاربردهای واقعی و زمان‌محور مانند زمان‌بندی، اتوماسیون و فناوری‌های کمک‌یار ادغام شوند، باید این کمبودها برطرف شوند.»

برای بررسی توانایی‌های زمانی هوش مصنوعی، پژوهشگران مجموعه‌داده‌ای سفارشی‌شده شامل تصاویر ساعت و تقویم را به مدل‌های بزرگ زبان چندوجهی (MLLMs) که می‌توانند اطلاعات متنی و بصری را هم‌زمان پردازش کنند، وارد کردند. مدل‌های استفاده‌شده در این مطالعه شامل Llama ۳.۲-Vision از متا، Claude-۳.۵ Sonnet از آنتروپیک، Gemini ۲.۰ از گوگل و GPT-۴o از شرکت OpenAI بودند. نتایج اما ضعیف بود، این مدل‌ها در بیش از نیمی از مواقع نتوانستند زمان درست را از روی تصویر ساعت تشخیص دهند یا روز هفته‌ی متناظر با یک تاریخ نمونه را به‌درستی مشخص کنند.

بالاخره انسان هوش مصنوعی را شکست داد

پژوهشگران اما برای این ضعف غیرمنتظره در خواندن ساعت توسط هوش مصنوعی، توضیحی دارند. ساکسنا می‌گوید:«سیستم‌های اولیه بر اساس نمونه‌های برچسب‌خورده آموزش می‌دیدند. اما خواندن ساعت به چیزی فراتر از این نیاز دارد—استدلال فضایی. مدل باید بتواند عقربه‌های هم‌پوشان را تشخیص دهد، زاویه‌ها را اندازه‌گیری کند و با طراحی‌های متنوعی چون اعداد رومی یا صفحه‌نماهای استایل‌دار کار کند. اینکه AI تشخیص دهد 'این یک ساعت است' آسان‌تر از خواندن واقعی آن است.»

کار با تاریخ‌ها نیز به همان اندازه دشوار بود. برای مثال، وقتی از مدل‌ها پرسیده شد: «روز ۱۵۳ام سال، چه روزی از هفته خواهد بود؟» نرخ خطا بسیار بالا باقی ماند. به‌طور میانگین، سیستم‌های AI تنها ۳۸.۷ درصد از پرسش‌های مربوط به ساعت و ۲۶.۳ درصد از پرسش‌های تقویمی را درست پاسخ دادند. این ناتوانی شگفت‌آور است، چرا که محاسبات عددی یکی از پایه‌های بنیادین رایانش به‌حساب می‌آید. اما همان‌طور که ساکسنا توضیح می‌دهد، مدل‌های زبان بزرگ به‌شکل متفاوتی عمل می‌کنند.

در «هر بچه‌ای می‌تواند اما هوش مصنوعی نمی‌تواند» بیشتر درباره این پدیده بخوانید.

۵۸۵۸

کد مطلب 2071043