یک گام بزرگ به سوی «هوش مصنوعی عمومی»/ GPT-5 در آزمون مشاغل انسانی موفق عمل کرد

شرکت OpenAI با انتشار یک بنچمارک جدید به نام GDPval، گام مهمی در ارزیابی توانایی‌های هوش مصنوعی در دنیای واقعی برداشته است. نتایج اولیه این آزمون نشان می‌دهد که مدل‌های پیشرفته‌ای مانند GPT-5 در طیف گسترده‌ای از وظایف شغلی، عملکردی بسیار شبیه به انسان دارد.

تینا مزدکی_شرکت OpenAI روز پنجشنبه یک بنچمارک (معیار سنجش) جدید منتشر کرد که عملکرد مدل‌های هوش مصنوعی خود را در مقایسه با متخصصان انسانی در طیف وسیعی از صنایع و مشاغل آزمایش می‌کند. این آزمون که GDPval نام دارد، تلاش می‌کند نشان دهد که تا چه حد عملکرد سیستم‌های OpenAI در کارهای دارای ارزش اقتصادی به پای انسان رسیده است. 

OpenAI می‌گوید عملکرد مدل GPT-5 و مدل Claude Opus 4.1 آنتروپیک به عملکرد متخصصان صنعتی نزدیک شده است. این به آن معنا نیست که مدل‌های OpenAI قرار است فوراً جایگزین انسان‌ها در مشاغلشان شوند. علی‌رغم پیش‌بینی برخی افراد مبنی بر اینکه هوش مصنوعی مشاغل انسان‌ها را تنها در چند سال آینده از آن خود خواهد کرد، OpenAI می‌گوید بر اساس GDPval در حال حاضر تعداد بسیار محدودی از وظایف انسان را پوشش می‌دهد. با این حال، این یکی از جدیدترین روش‌هایی است که شرکت برای سنجش پیشرفت هوش مصنوعی به کار می‌گیرد.

آزمون GDPval بر اساس ۹ صنعتی که بیشترین سهم را در تولید ناخالص داخلی آمریکا دارند، از جمله حوزه‌هایی مانند بهداشت و درمان، مالی، تولیدی و دولتی، طراحی شده است. این بنچمارک عملکرد یک مدل هوش مصنوعی را در ۴۴ شغل در میان آن صنایع، از مهندسان نرم‌افزار گرفته تا پرستاران و روزنامه‌نگاران، ارزیابی می‌کند.

برای اولین نسخه این آزمون (GDPval-v0)، OpenAI از متخصصان باتجربه خواست تا گزارش‌های تولید شده توسط هوش مصنوعی را با گزارش‌های تهیه‌شده توسط سایر متخصصان انسانی مقایسه کرده و بهترین را انتخاب کنند. به عنوان مثال، در یک نمونه از آن‌ها خواسته شد تا چشم‌انداز رقابتی در صنعت «تحویل به مشتری نهایی» (last-mile delivery) را ترسیم کرده و آن را با گزارش‌های تولید شده توسط هوش مصنوعی مقایسه کنند. OpenAI میانگین «نرخ موفقیت» یک مدل هوش مصنوعی در برابر گزارش‌های انسانی را در تمام ۴۴ شغل محاسبه می‌کند.

این شرکت می‌گوید مدل GPT-5-high، که نسخه‌ای تقویت‌شده از GPT-5 با قدرت محاسباتی اضافی است، در ۴۰.۶ درصد مواقع بهتر یا هم‌سطح با متخصصان بوده است.

OpenAI همچنین مدل Claude Opus 4.1 از شرکت آنتروپیک را آزمایش کرد که در ۴۹ درصد از کارها، بهتر یا هم‌سطح با متخصصان ارزیابی شد. OpenAI معتقد است که امتیاز بالای Claude بیشتر به دلیل تمایل آن به ساخت گرافیک‌های جذاب بوده است تا عملکرد خالص. البته باید در نظر داشت که اکثر متخصصان، بیشتر از یک گزارش تحقیقاتی به کارفرمایان خود تحویل می‌دهند و این در واقع تمام آن چیزی است که GDPval-v0 آزمایش می‌کند. OpenAI در این بارع می‌گوید قصد دارد در آینده آزمون‌های جامع‌تری ایجاد کند که بتوانند صنایع بیشتر و جریان‌های کاری تعاملی را در بر بگیرند.

یک گام بزرگ به سوی «هوش مصنوعی عمومی»/ GPT-5 در آزمون مشاغل انسانی موفق عمل کرد

با این وجود، این شرکت پیشرفت در GDPval را قابل توجه می‌داند. دکتر آرون چاترجی، اقتصاددان ارشد OpenAI می‌گوید نتایج GDPval نشان می‌دهد افراد شاغل در این حوزه‌ها اکنون می‌توانند از مدل‌های هوش مصنوعی، کمک بگیرند تا بهتر زمان خود را مدیریت کنند.

تجال پاتواردهان، مدیر ارزیابی‌های OpenAI می‌گوید که سرعت پیشرفت در GDPval امیدوارکننده است. مدل GPT-4o که تقریباً ۱۵ ماه پیش منتشر شد، در در این آزمون امتیاز ۱۳.۷٪ را کسب کرده بود. اما اکنون امتیاز GPT-5 تقریباً سه برابر شده است و انتظار می‌رود که این روند همچنان ادامه پیدا کند.

سیلیکون ولی از طیف گسترده‌ای از بنچمارک‌ها برای اندازه‌گیری پیشرفت مدل‌های هوش مصنوعی و ارزیابی پیشرفته بودن یک مدل خاص استفاده می‌کند. از جمله محبوب‌ترین آن‌ها می‌توان به AIME 2025 (آزمون مسائل ریاضی رقابتی) و GPQA Diamond (آزمون سؤالات علمی در سطح دکترا) اشاره کرد. با این حال، چندین مدل هوش مصنوعی در برخی از این بنچمارک‌ها در حال نزدیک شدن به نقطه اشباع هستند و بسیاری از محققان هوش مصنوعی بر لزوم آزمون‌های بهتری که بتوانند مهارت هوش مصنوعی را در وظایف دنیای واقعی بسنجند، تأکید کرده‌اند.

بنچمارک‌هایی مانند GDPval می‌توانند اهمیت فزاینده‌ای پیدا کنند، زیرا OpenAI استدلال می‌کند که مدل‌های هوش مصنوعی‌اش برای طیف وسیعی از صنایع ارزشمند هستند. اما OpenAI برای اینکه بتواند به طور قطعی بگوید که مدل‌هایش می‌توانند از انسان‌ها بهتر عمل کنند، ممکن است به نسخه جامع‌تری از این آزمون نیاز داشته باشد.

منبع: techcrunch

۲۲۷۳۲۳

کد خبر 2120585

برچسب‌ها

خدمات گردشگری

نظر شما

شما در حال پاسخ به نظر «» هستید.
0 + 0 =

آخرین اخبار