تینا مزدکی_هوش مصنوعی را میتوان از راههای گوناگونی آزمود، از روانی مکالمه و درک مطلب گرفته تا حل مسائل فوقالعاده سخت فیزیک. اما برخی از آزمونهایی که بیشترین احتمال را برای به چالش کشیدن هوش مصنوعی دارند، همانهایی هستند که برای انسانها نسبتاً آسان و حتی سرگرمکنندهاند. اگرچه هوش مصنوعی به طور فزایندهای در وظایفی که نیازمند تخصص بالای انسانی است برتری پیدا کرده است، اما این به معنای نزدیک شدن آن به هوش عمومی مصنوعی (AGI) نیست. دستیابی به AGI مستلزم آن است که یک هوش مصنوعی بتواند خود را با موقعیتهای کاملاً جدید وفق دهد. این توانایی که اساس یادگیری انسان است همچنان برای هوش مصنوعی یک چالش است.
یکی از آزمونهایی که برای ارزیابی توانایی تعمیمپذیری هوش مصنوعی طراحی شده، «مجموعه انتزاع و استدلال» یا ARC است، مجموعهای از معماهای کوچک با شبکههای رنگی که از حلکننده میخواهد یک قانون پنهان را استنباط کرده و سپس آن را در یک شبکه جدید به کار گیرد. این آزمون که توسط فرانسوا شوله، پژوهشگر هوش مصنوعی، در سال ۲۰۱۹ توسعه پیدا کرد، به اساس بنیاد جایزه ARC تبدیل شد که یک برنامه غیرانتفاعی برای اجرای این آزمون است و اکنون به یک معیار صنعتی تبدیل شده که توسط تمام مدلهای بزرگ هوش مصنوعی استفاده میشود.
این سازمان که حال توسعه آزمونهای جدید است؛ به طور معمول از دو نسخه (ARC-AGI-۱ و نسخه چالشبرانگیزتر آن ARC-AGI-۲) استفاده کرده است و این هفته، این بنیاد در حال راهاندازی ARC-AGI-۳ است که به طور خاص برای آزمایش «عاملهای هوش مصنوعی» (AI agents) طراحی شده که در آن مدلها را وادار به انجام بازیهای ویدئویی میکند. اکنون گرگ کامراد رئیس بنیاد جایزه ARC، پژوهشگر هوش مصنوعی و کارآفرین در گفتوگویی از نحوه ارزیابی هوش مصنوعی توسط این آزمونها میگوید؛ اینکه چرا با وجود اینکه بسیاری از انسانها معماها را به راحتی حل میکنند، حل آنها اغلب برای مدلهای هوش مصنوعی کاری چالشبرانگیز هستند.
ARC-AGI-۱ چه تعریفی از هوش را اندازهگیری میکند؟
کامراد اینطور توضیح میدهد:« تعریف ما از هوش، توانایی در یادگیری چیزهای جدید است. ما میدانیم که هوش مصنوعی میتواند در شطرنج پیروز شود، اما آن مدلها نمیتوانند آموختههای خود را به حوزههای جدید تعمیم دهند؛ مثلاً نمیتوانند بروند و زبان انگلیسی یاد بگیرند. کاری که فرانسوا شوله انجام داد، ایجاد یک معیار به نام ARC-AGI بود. این آزمون یک مهارت کوچک را در سؤال به شما آموزش میدهد و سپس از شما میخواهد آن مهارت را به نمایش بگذارید. ما اساساً چیزی را آموزش میدهیم و از شما میخواهیم مهارتی را که تازه یاد گرفتهاید، تکرار کنید. بنابراین، این آزمون توانایی یک مدل برای یادگیری در یک حوزه محدود را میسنجد. اما ادعای این شرکت این است که این آزمون AGI را ارزیابی نمیکند، زیرا هنوز در یک دامنه محدود قرار دارد. این آزمون نشان میدهد که یک هوش مصنوعی میتواند تعمیم دهد، اما با این حال نمیتوان گفت که این مدل یک هوش مصنوعی عمومی یا همان AGI است.»
او همچنین در پاسخ به این پرسش که چه تعریفی از AGI دارد، میگوید:« من از دو دیدگاه به آن نگاه میکنم. اولی بیشتر فنی است؛ "آیا یک سیستم مصنوعی میتواند با کارایی یادگیری یک انسان برابری کند؟" منظورم این است که انسانها پس از تولد، چیزهای زیادی را خارج از دادههای آموزشی خود یاد میگیرند. در واقع، آنها به جز چند پیشفرض تکاملی، داده آموزشی مشخصی ندارند. ما یاد میگیریم انگلیسی صحبت کنیم، رانندگی کنیم و دوچرخهسواری کنیم؛ همه اینها خارج از دادههای آموزشی ماست. این همان «تعمیمپذیری» است. وقتی بتوانید کارهایی را خارج از آنچه برای آن آموزش دیدهاید انجام دهید، ما آن را هوش مینامیم. تعریف جایگزین ما از AGI زمانی است که دیگر نتوانیم مسائلی را پیدا کنیم که انسانها بتوانند انجام دهند اما هوش مصنوعی نتواند؛ آن زمان است که به AGI رسیدهایم. این یک تعریف مشاهداتی است. عکس آن نیز صادق است؛ تا زمانی که جایزه ARC یا بشریت به طور کلی هنوز بتواند مسائلی را بیابد که انسانها میتوانند انجام دهند اما هوش مصنوعی نمیتواند، پس ما AGI نداریم. یکی از عوامل کلیدی معیار فرانسوا شوله این است که ما انسانها را با آن میآزماییم و یک انسان متوسط میتواند این وظایف و مسائل را انجام دهد، اما هوش مصنوعی هنوز با آن مشکل جدی دارد. دلیل جذابیت این موضوع آن است که برخی هوشهای مصنوعی پیشرفته مانند Grok میتوانند هر آزمون تحصیلات تکمیلی را بگذرانند یا کارهای خارقالعادهای انجام دهند، اما این یک «هوش ناپیوسته» (spiky intelligence) است. هنوز قدرت تعمیمپذیری یک انسان را ندارد و این همان چیزی است که این معیار نشان میدهد.»
او همچنین درباره معیارهای این شرکت میگوید:«یکی از چیزهایی که ما را متمایز میکند این است که ما تاکید میکنیم معیارمان توسط انسانها قابل حل باشد. این برخلاف سایر معیارهاست که به مسائل «سطح دکترا به بالا» میپردازند. من نیازی ندارم به من گفته شود که هوش مصنوعی از من باهوشتر است؛ من میدانم که o۳ از OpenAI کارهای زیادی را بهتر از من انجام میدهد، اما قدرت تعمیمپذیری یک انسان را ندارد. این همان چیزی است که ما اندازهگیری میکنیم، بنابراین باید انسانها را بیازماییم. ما ۴۰۰ نفر را با ARC-AGI-۲ آزمایش کردیم. آنها را در یک اتاق جمع کردیم، به آنها کامپیوتر دادیم و سپس آزمون را برگزار کردیم. میانگین نمره افراد در ARC-AGI-۲، برابر با ۶۶ درصد بود. این در حالی است که به طور کلی، ۵ تا ۱۰ نفر نیز به تمام سؤالات ARC-AGI-۲ پاسخ صحیح داده بودند.
به گفته کامراد دو دلیل وجود دارد که این آزمون را برای هوش مصنوعی دشوار و برای انسانها نسبتاً آسان میکند. انسانها در یادگیری خود به طرز باورنکردنی «نمونه-کارآمد» (sample-efficient) هستند؛ یعنی میتوانند با دیدن تنها یک یا دو مثال، مهارتی کوچک را یاد بگیرند و آن را انجام دهند. الگوریتمی که در ذهن یک انسان اجرا میشود، چندین برابر بهتر و کارآمدتر از چیزی است که در حال حاضر در هوش مصنوعی میبینیم.
تفاوت بین ARC-AGI-۱ و ARC-AGI-۲ چیست؟
ARC-AGI-۱ را خود فرانسوا شوله ساخت. حدود ۱۰۰۰ وظیفه داشت و در سال ۲۰۱۹ ارائه شد. او اساساً حداقل نسخه ممکن را برای اندازهگیری تعمیمپذیری ایجاد کرد و این معیار برای پنج سال پابرجا ماند زیرا یادگیری عمیق اصلاً نمیتوانست به آن نزدیک شود. سپس، مدلهای استدلالی که در سال ۲۰۲۴ توسط OpenAI عرضه شدند، شروع به پیشرفت در آن کردند که یک تغییر در تواناییهای هوش مصنوعی را نشان داد.
کامراد میگوید:«وقتی به سراغ ARC-AGI-۲ رفتیم، کمی عمیقتر به این موضوع پرداختیم که انسانها چه کارهایی میتوانند انجام دهند که هوش مصنوعی نمیتواند. هر وظیفه نیاز به کمی برنامهریزی بیشتر دارد، بنابراین به جای حل شدن در پنج ثانیه، ممکن است انسانها آن را در یک یا دو دقیقه انجام دهند. قوانین پیچیدهتر و شبکهها بزرگتر هستند، بنابراین باید در پاسخ خود دقیقتر باشید، اما مفهوم کم و بیش همان است. ما اکنون در حال راهاندازی یک پیشنمایش توسعهدهنده برای ARC-AGI-۳ هستیم که کاملاً از این قالب فاصله میگیرد. قالب جدید در واقع تعاملی خواهد بود. بنابراین، آن را بیشتر به عنوان یک معیار برای «عاملهای هوشمند» در نظر بگیرید.»
ARC-AGI-۳ چگونه عاملهای هوشمند را متفاوت از آزمونهای قبلی آزمایش خواهد کرد؟
رئیس بنیاد جایزه ARC توضیح میدهد که در زندگی واقعی، تصمیمگیریهای ما به ندرت به یک پرسش و پاسخ ساده و تکمرحلهای محدود میشود. با این حال، تقریباً تمام معیارهای فعلی برای سنجش هوش مصنوعی به همین شکل عمل میکنند؛ از مدل یک سؤال پرسیده میشود و او یک پاسخ واحد ارائه میدهد. چنین روشی برای ارزیابی قابلیتهای پیچیدهتر مانند برنامهریزی بلندمدت، اکتشاف یک محیط جدید، یا درک شهودی از اهداف، کافی نیست. او میگوید:«به همین دلیل، ما در حال ساخت ۱۰۰ بازی ویدیویی کاملاً جدید هستیم. این بازیها ابتدا توسط انسانها آزمایش میشوند تا اطمینان حاصل کنیم که قابل حل هستند، زیرا این اصل اساسی معیار ماست. سپس، عاملهای هوش مصنوعی در این محیطهای ناآشنا قرار داده میشوند تا توانایی آنها در درک و تعامل با یک فضای کاملاً جدید سنجیده شود. نتایج اولیه نیز بسیار قابل توجه بوده است؛ تا به امروز، در آزمایشهای داخلی ما، هیچ یک از مدلهای هوش مصنوعی موفق به اتمام حتی یک مرحله از این بازیها نشدهاند.»
هر «محیط» یا بازی ویدیویی، یک معمای پیکسلی و دوبعدی است. این بازیها به صورت مراحل مجزا ساختار یافتهاند و هر مرحله برای آموزش یک مهارت کوچک خاص به بازیکن (انسان یا هوش مصنوعی) طراحی شده است. برای تکمیل موفقیتآمیز یک مرحله، بازیکن باید با اجرای توالیهای برنامهریزیشده از اقدامات، تسلط خود بر آن مهارت را نشان دهد.
بازیهای ویدیویی مدتهاست که به عنوان معیار در تحقیقات هوش مصنوعی استفاده میشوند، که بازیهای آتاری یک مثال محبوب آن است. اما معیارهای سنتی بازیهای ویدیویی با چندین محدودیت روبرو هستند. بازیهای محبوب دارای دادههای آموزشی گسترده و در دسترس عموم هستند، فاقد معیارهای استاندارد ارزیابی عملکرد بوده و اجازه استفاده از روشهای «جستجوی فراگیر» (brute-force) شامل میلیاردها شبیهسازی را میدهند. علاوه بر این، توسعهدهندگانی که عاملهای هوش مصنوعی را میسازند، معمولاً دانش قبلی از این بازیها دارند و ناخواسته بینشهای خود را در راهحلها تعبیه میکنند.
منبع: livescience
۵۸۳۲۳