این پژوهش نشان می‌دهد عملکرد مدل‌های هوش مصنوعی در مدتی کوتاه جهش چشمگیری داشته است.

به گزارش خبرگزاری خبرآنلاین و براساس گزارش دیجیاتو، شرکت LifePrompt در تحقیق جدیدی مدل ChatGPT 5.2 Thinking را در آزمون‌های ورودی سال ۲۰۲۶ دانشگاه توکیو و دانشگاه کیوتو آزمایش کرده است. نتیجه این ارزیابی نشان می‌دهد ChatGPT 5.2 Thinking در آزمون علوم طبیعی دانشگاه توکیو ۵۰۳ امتیاز از ۵۵۰ امتیاز ممکن را کسب کرده، درحالی‌که بالاترین نمره انسانی ۴۵۳ بوده است. این مدل همچنین در ریاضیات نمره کامل را گرفته است.

در دانشگاه کیوتو نیز ChatGPT در آزمون دانشکده حقوق نمره ۷۷۱ را ثبت کرده؛ درحالی‌که بالاترین نمره انسانی ۷۳۴ بوده است. این مدل در آزمون دانشکده پزشکی هم ۱۱۷۶ امتیاز گرفته که از نمره ۱۰۹۸ بهترین داوطلب انسانی بیشتر است.

این نتیجه در شرایطی به دست آمده که ۲ سال پیش، GPT-4 در همین آزمون دانشگاه توکیو حتی نتوانسته بود به حداقل نمره قبولی برسد. LifePrompt نتیجه سال ۲۰۲۴ را بخش مهمی از این روند می‌داند؛ زیرا نشان می‌دهد عملکرد هوش مصنوعی در مدت کوتاهی جهش چشمگیری داشته است. به گفته این شرکت، ChatGPT در ژانویه ۲۰۲۶ نیز در ۱۵ درس آزمون سراسری ورودی دانشگاه‌ها امتیاز ۹۷ درصد را به دست آورده و در ۹ درس نمره کامل گرفته بود و نتایج آوریل ۲۰۲۶ نشان می‌دهد این روند صعودی ادامه پیدا کرده است.

عملکرد ضعیف ChatGPT در پرسش‌های تشریحی

درعین‌حال، گزارش LifePrompt به نقاط ضعف هوش مصنوعی هم اشاره می‌کند. ضعیف‌ترین بخش عملکرد ChatGPT به «پرسش‌های تشریحی» مربوط بوده است. این مدل در آزمون زبان انگلیسی امتیاز ۹۰ درصد گرفته اما در پرسش‌های تشریحی درس‌هایی مانند تاریخ جهان فقط امتیاز ۲۵ درصد کسب کرده است.

البته در این ارزیابی، پاسخ‌های تشریحی به‌جای سیستم‌های خودکار، توسط معلمان مؤسسات آموزشی تصحیح شده‌اند. گزارش حاضر می‌گوید ریاضیات، شیمی، فیزیک و انفورماتیک، یعنی درس‌های ساختارمند با پاسخ مشخص، حوزه‌هایی هستند که AI در آنها به سطحی فراتر از انسان رسیده، اما در ترکیب‌کردن ایده‌ها، استدلال و تفسیر، فاصله کمتر می‌شود.

۲۲۷۲۲۷