درحالی‌که هوش مصنوعی در حل مسائل پیچیده فیزیک یا شکست دادن قهرمانان شطرنج به برتری رسیده است، آزمون‌هایی وجود دارد که به راحتی توسط انسان حل می‌شوند اما پیشرفته‌ترین مدل‌های هوش مصنوعی را گیج می‌کند. این معماها که در قالب یک معیار صنعتی به نام ARC شناخته می‌شوند، ضعف بزرگ هوش مصنوعی در توانایی یادگیری یک مهارت جدید با اطلاعات کم را نشان می‌دهند.

تینا مزدکی_هوش مصنوعی را می‌توان از راه‌های گوناگونی آزمود، از روانی مکالمه و درک مطلب گرفته تا حل مسائل فوق‌العاده سخت فیزیک. اما برخی از آزمون‌هایی که بیشترین احتمال را برای به چالش کشیدن هوش مصنوعی دارند، همان‌هایی هستند که برای انسان‌ها نسبتاً آسان و حتی سرگرم‌کننده‌اند. اگرچه هوش مصنوعی به طور فزاینده‌ای در وظایفی که نیازمند تخصص بالای انسانی است برتری پیدا کرده است، اما این به معنای نزدیک شدن آن به هوش عمومی مصنوعی (AGI) نیست. دستیابی به AGI مستلزم آن است که یک هوش مصنوعی بتواند خود را با موقعیت‌های کاملاً جدید وفق دهد. این توانایی که اساس یادگیری انسان است همچنان برای هوش مصنوعی یک چالش است.

یکی از آزمون‌هایی که برای ارزیابی توانایی تعمیم‌پذیری هوش مصنوعی طراحی شده، «مجموعه انتزاع و استدلال» یا ARC است، مجموعه‌ای از معماهای کوچک با شبکه‌های رنگی که از حل‌کننده می‌خواهد یک قانون پنهان را استنباط کرده و سپس آن را در یک شبکه جدید به کار گیرد. این آزمون که توسط فرانسوا شوله، پژوهشگر هوش مصنوعی، در سال ۲۰۱۹ توسعه پیدا کرد، به اساس بنیاد جایزه ARC تبدیل شد که یک برنامه غیرانتفاعی برای اجرای این آزمون است و اکنون به یک معیار صنعتی تبدیل شده که توسط تمام مدل‌های بزرگ هوش مصنوعی استفاده می‌شود.

این سازمان که حال توسعه آزمون‌های جدید است؛ به طور معمول از دو نسخه (ARC-AGI-۱ و نسخه چالش‌برانگیزتر آن ARC-AGI-۲) استفاده کرده است و این هفته، این بنیاد در حال راه‌اندازی ARC-AGI-۳ است که به طور خاص برای آزمایش «عامل‌های هوش مصنوعی» (AI agents) طراحی شده که در آن مدل‌ها را وادار به انجام بازی‌های ویدئویی می‌کند. اکنون گرگ کامراد رئیس بنیاد جایزه ARC، پژوهشگر هوش مصنوعی و کارآفرین در گفت‌وگویی از نحوه ارزیابی هوش مصنوعی توسط این آزمون‌ها می‌گوید؛ اینکه چرا با وجود اینکه بسیاری از انسان‌ها معماها را به راحتی حل می‌کنند، حل آن‌ها اغلب برای مدل‌های هوش مصنوعی کاری چالش‌برانگیز هستند.

ARC-AGI-۱ چه تعریفی از هوش را اندازه‌گیری می‌کند؟

کامراد اینطور توضیح می‌دهد:« تعریف ما از هوش، توانایی در یادگیری چیزهای جدید است. ما می‌دانیم که هوش مصنوعی می‌تواند در شطرنج پیروز شود، اما آن مدل‌ها نمی‌توانند آموخته‌های خود را به حوزه‌های جدید تعمیم دهند؛ مثلاً نمی‌توانند بروند و زبان انگلیسی یاد بگیرند. کاری که فرانسوا شوله انجام داد، ایجاد یک معیار به نام ARC-AGI بود. این آزمون یک مهارت کوچک را در سؤال به شما آموزش می‌دهد و سپس از شما می‌خواهد آن مهارت را به نمایش بگذارید. ما اساساً چیزی را آموزش می‌دهیم و از شما می‌خواهیم مهارتی را که تازه یاد گرفته‌اید، تکرار کنید. بنابراین، این آزمون توانایی یک مدل برای یادگیری در یک حوزه محدود را می‌سنجد. اما ادعای این شرکت این است که این آزمون AGI را ارزیابی نمی‌کند، زیرا هنوز در یک دامنه محدود قرار دارد. این آزمون نشان می‌دهد که یک هوش مصنوعی می‌تواند تعمیم دهد، اما با این حال نمی‌توان گفت که این مدل یک هوش مصنوعی عمومی یا همان AGI است.»

او همچنین در پاسخ به این پرسش که چه تعریفی از AGI دارد، می‌گوید:« من از دو دیدگاه به آن نگاه می‌کنم. اولی بیشتر فنی است؛ "آیا یک سیستم مصنوعی می‌تواند با کارایی یادگیری یک انسان برابری کند؟" منظورم این است که انسان‌ها پس از تولد، چیزهای زیادی را خارج از داده‌های آموزشی خود یاد می‌گیرند. در واقع، آن‌ها به جز چند پیش‌فرض تکاملی، داده آموزشی مشخصی ندارند. ما یاد می‌گیریم انگلیسی صحبت کنیم، رانندگی کنیم و دوچرخه‌سواری کنیم؛ همه این‌ها خارج از داده‌های آموزشی ماست. این همان «تعمیم‌پذیری» است. وقتی بتوانید کارهایی را خارج از آنچه برای آن آموزش دیده‌اید انجام دهید، ما آن را هوش می‌نامیم. تعریف جایگزین ما از AGI زمانی است که دیگر نتوانیم مسائلی را پیدا کنیم که انسان‌ها بتوانند انجام دهند اما هوش مصنوعی نتواند؛ آن زمان است که به AGI رسیده‌ایم. این یک تعریف مشاهداتی است. عکس آن نیز صادق است؛ تا زمانی که جایزه ARC یا بشریت به طور کلی هنوز بتواند مسائلی را بیابد که انسان‌ها می‌توانند انجام دهند اما هوش مصنوعی نمی‌تواند، پس ما AGI نداریم. یکی از عوامل کلیدی معیار فرانسوا شوله این است که ما انسان‌ها را با آن می‌آزماییم و یک انسان متوسط می‌تواند این وظایف و مسائل را انجام دهد، اما هوش مصنوعی هنوز با آن مشکل جدی دارد. دلیل جذابیت این موضوع آن است که برخی هوش‌های مصنوعی پیشرفته مانند Grok می‌توانند هر آزمون تحصیلات تکمیلی را بگذرانند یا کارهای خارق‌العاده‌ای انجام دهند، اما این یک «هوش ناپیوسته» (spiky intelligence) است. هنوز قدرت تعمیم‌پذیری یک انسان را ندارد و این همان چیزی است که این معیار نشان می‌دهد.»

او همچنین درباره معیارهای این شرکت می‌گوید:«یکی از چیزهایی که ما را متمایز می‌کند این است که ما تاکید می‌کنیم معیارمان توسط انسان‌ها قابل حل باشد. این برخلاف سایر معیارهاست که به مسائل «سطح دکترا به بالا» می‌پردازند. من نیازی ندارم به من گفته شود که هوش مصنوعی از من باهوش‌تر است؛ من می‌دانم که o۳ از OpenAI کارهای زیادی را بهتر از من انجام می‌دهد، اما قدرت تعمیم‌پذیری یک انسان را ندارد. این همان چیزی است که ما اندازه‌گیری می‌کنیم، بنابراین باید انسان‌ها را بیازماییم. ما ۴۰۰ نفر را با ARC-AGI-۲ آزمایش کردیم. آن‌ها را در یک اتاق جمع کردیم، به آن‌ها کامپیوتر دادیم و سپس آزمون را برگزار کردیم. میانگین نمره افراد در ARC-AGI-۲، برابر با ۶۶ درصد بود. این در حالی است که به طور کلی، ۵ تا ۱۰ نفر نیز به تمام سؤالات ARC-AGI-۲ پاسخ صحیح داده بودند.

به گفته کامراد دو دلیل وجود دارد که این آزمون را برای هوش مصنوعی دشوار و برای انسان‌ها نسبتاً آسان می‌کند. انسان‌ها در یادگیری خود به طرز باورنکردنی «نمونه-کارآمد» (sample-efficient) هستند؛ یعنی می‌توانند با دیدن تنها یک یا دو مثال، مهارتی کوچک را یاد بگیرند و آن را انجام دهند. الگوریتمی که در ذهن یک انسان اجرا می‌شود، چندین برابر بهتر و کارآمدتر از چیزی است که در حال حاضر در هوش مصنوعی می‌بینیم.

تفاوت بین ARC-AGI-۱ و ARC-AGI-۲ چیست؟

ARC-AGI-۱ را خود فرانسوا شوله ساخت. حدود ۱۰۰۰ وظیفه داشت و در سال ۲۰۱۹ ارائه شد. او اساساً حداقل نسخه ممکن را برای اندازه‌گیری تعمیم‌پذیری ایجاد کرد و این معیار برای پنج سال پابرجا ماند زیرا یادگیری عمیق اصلاً نمی‌توانست به آن نزدیک شود. سپس، مدل‌های استدلالی که در سال ۲۰۲۴ توسط OpenAI عرضه شدند، شروع به پیشرفت در آن کردند که یک تغییر در توانایی‌های هوش مصنوعی را نشان داد.

کامراد می‌گوید:«وقتی به سراغ ARC-AGI-۲ رفتیم، کمی عمیق‌تر به این موضوع پرداختیم که انسان‌ها چه کارهایی می‌توانند انجام دهند که هوش مصنوعی نمی‌تواند. هر وظیفه نیاز به کمی برنامه‌ریزی بیشتر دارد، بنابراین به جای حل شدن در پنج ثانیه، ممکن است انسان‌ها آن را در یک یا دو دقیقه انجام دهند. قوانین پیچیده‌تر و شبکه‌ها بزرگ‌تر هستند، بنابراین باید در پاسخ خود دقیق‌تر باشید، اما مفهوم کم و بیش همان است. ما اکنون در حال راه‌اندازی یک پیش‌نمایش توسعه‌دهنده برای ARC-AGI-۳ هستیم که کاملاً از این قالب فاصله می‌گیرد. قالب جدید در واقع تعاملی خواهد بود. بنابراین، آن را بیشتر به عنوان یک معیار برای «عامل‌های هوشمند» در نظر بگیرید.»

ARC-AGI-۳ چگونه عامل‌های هوشمند را متفاوت از آزمون‌های قبلی آزمایش خواهد کرد؟

رئیس بنیاد جایزه ARC توضیح می‌دهد که در زندگی واقعی، تصمیم‌گیری‌های ما به ندرت به یک پرسش و پاسخ ساده و تک‌مرحله‌ای محدود می‌شود. با این حال، تقریباً تمام معیارهای فعلی برای سنجش هوش مصنوعی به همین شکل عمل می‌کنند؛ از مدل یک سؤال پرسیده می‌شود و او یک پاسخ واحد ارائه می‌دهد. چنین روشی برای ارزیابی قابلیت‌های پیچیده‌تر مانند برنامه‌ریزی بلندمدت، اکتشاف یک محیط جدید، یا درک شهودی از اهداف، کافی نیست. او می‌گوید:«به همین دلیل، ما در حال ساخت ۱۰۰ بازی ویدیویی کاملاً جدید هستیم. این بازی‌ها ابتدا توسط انسان‌ها آزمایش می‌شوند تا اطمینان حاصل کنیم که قابل حل هستند، زیرا این اصل اساسی معیار ماست. سپس، عامل‌های هوش مصنوعی در این محیط‌های ناآشنا قرار داده می‌شوند تا توانایی آن‌ها در درک و تعامل با یک فضای کاملاً جدید سنجیده شود. نتایج اولیه نیز بسیار قابل توجه بوده است؛ تا به امروز، در آزمایش‌های داخلی ما، هیچ یک از مدل‌های هوش مصنوعی موفق به اتمام حتی یک مرحله از این بازی‌ها نشده‌اند.»

هر «محیط» یا بازی ویدیویی، یک معمای پیکسلی و دوبعدی است. این بازی‌ها به صورت مراحل مجزا ساختار یافته‌اند و هر مرحله برای آموزش یک مهارت کوچک خاص به بازیکن (انسان یا هوش مصنوعی) طراحی شده است. برای تکمیل موفقیت‌آمیز یک مرحله، بازیکن باید با اجرای توالی‌های برنامه‌ریزی‌شده از اقدامات، تسلط خود بر آن مهارت را نشان دهد.

بازی‌های ویدیویی مدت‌هاست که به عنوان معیار در تحقیقات هوش مصنوعی استفاده می‌شوند، که بازی‌های آتاری یک مثال محبوب آن است. اما معیارهای سنتی بازی‌های ویدیویی با چندین محدودیت روبرو هستند. بازی‌های محبوب دارای داده‌های آموزشی گسترده و در دسترس عموم هستند، فاقد معیارهای استاندارد ارزیابی عملکرد بوده و اجازه استفاده از روش‌های «جستجوی فراگیر» (brute-force) شامل میلیاردها شبیه‌سازی را می‌دهند. علاوه بر این، توسعه‌دهندگانی که عامل‌های هوش مصنوعی را می‌سازند، معمولاً دانش قبلی از این بازی‌ها دارند و ناخواسته بینش‌های خود را در راه‌حل‌ها تعبیه می‌کنند.

منبع: livescience

۵۸۳۲۳

منبع: خبرآنلاین