تینا مزدکی_شرکت OpenAI روز پنجشنبه یک بنچمارک (معیار سنجش) جدید منتشر کرد که عملکرد مدلهای هوش مصنوعی خود را در مقایسه با متخصصان انسانی در طیف وسیعی از صنایع و مشاغل آزمایش میکند. این آزمون که GDPval نام دارد، تلاش میکند نشان دهد که تا چه حد عملکرد سیستمهای OpenAI در کارهای دارای ارزش اقتصادی به پای انسان رسیده است.
OpenAI میگوید عملکرد مدل GPT-5 و مدل Claude Opus 4.1 آنتروپیک به عملکرد متخصصان صنعتی نزدیک شده است. این به آن معنا نیست که مدلهای OpenAI قرار است فوراً جایگزین انسانها در مشاغلشان شوند. علیرغم پیشبینی برخی افراد مبنی بر اینکه هوش مصنوعی مشاغل انسانها را تنها در چند سال آینده از آن خود خواهد کرد، OpenAI میگوید بر اساس GDPval در حال حاضر تعداد بسیار محدودی از وظایف انسان را پوشش میدهد. با این حال، این یکی از جدیدترین روشهایی است که شرکت برای سنجش پیشرفت هوش مصنوعی به کار میگیرد.
آزمون GDPval بر اساس ۹ صنعتی که بیشترین سهم را در تولید ناخالص داخلی آمریکا دارند، از جمله حوزههایی مانند بهداشت و درمان، مالی، تولیدی و دولتی، طراحی شده است. این بنچمارک عملکرد یک مدل هوش مصنوعی را در ۴۴ شغل در میان آن صنایع، از مهندسان نرمافزار گرفته تا پرستاران و روزنامهنگاران، ارزیابی میکند.
برای اولین نسخه این آزمون (GDPval-v0)، OpenAI از متخصصان باتجربه خواست تا گزارشهای تولید شده توسط هوش مصنوعی را با گزارشهای تهیهشده توسط سایر متخصصان انسانی مقایسه کرده و بهترین را انتخاب کنند. به عنوان مثال، در یک نمونه از آنها خواسته شد تا چشمانداز رقابتی در صنعت «تحویل به مشتری نهایی» (last-mile delivery) را ترسیم کرده و آن را با گزارشهای تولید شده توسط هوش مصنوعی مقایسه کنند. OpenAI میانگین «نرخ موفقیت» یک مدل هوش مصنوعی در برابر گزارشهای انسانی را در تمام ۴۴ شغل محاسبه میکند.
این شرکت میگوید مدل GPT-5-high، که نسخهای تقویتشده از GPT-5 با قدرت محاسباتی اضافی است، در ۴۰.۶ درصد مواقع بهتر یا همسطح با متخصصان بوده است.
OpenAI همچنین مدل Claude Opus 4.1 از شرکت آنتروپیک را آزمایش کرد که در ۴۹ درصد از کارها، بهتر یا همسطح با متخصصان ارزیابی شد. OpenAI معتقد است که امتیاز بالای Claude بیشتر به دلیل تمایل آن به ساخت گرافیکهای جذاب بوده است تا عملکرد خالص. البته باید در نظر داشت که اکثر متخصصان، بیشتر از یک گزارش تحقیقاتی به کارفرمایان خود تحویل میدهند و این در واقع تمام آن چیزی است که GDPval-v0 آزمایش میکند. OpenAI در این بارع میگوید قصد دارد در آینده آزمونهای جامعتری ایجاد کند که بتوانند صنایع بیشتر و جریانهای کاری تعاملی را در بر بگیرند.
با این وجود، این شرکت پیشرفت در GDPval را قابل توجه میداند. دکتر آرون چاترجی، اقتصاددان ارشد OpenAI میگوید نتایج GDPval نشان میدهد افراد شاغل در این حوزهها اکنون میتوانند از مدلهای هوش مصنوعی، کمک بگیرند تا بهتر زمان خود را مدیریت کنند.
تجال پاتواردهان، مدیر ارزیابیهای OpenAI میگوید که سرعت پیشرفت در GDPval امیدوارکننده است. مدل GPT-4o که تقریباً ۱۵ ماه پیش منتشر شد، در در این آزمون امتیاز ۱۳.۷٪ را کسب کرده بود. اما اکنون امتیاز GPT-5 تقریباً سه برابر شده است و انتظار میرود که این روند همچنان ادامه پیدا کند.
سیلیکون ولی از طیف گستردهای از بنچمارکها برای اندازهگیری پیشرفت مدلهای هوش مصنوعی و ارزیابی پیشرفته بودن یک مدل خاص استفاده میکند. از جمله محبوبترین آنها میتوان به AIME 2025 (آزمون مسائل ریاضی رقابتی) و GPQA Diamond (آزمون سؤالات علمی در سطح دکترا) اشاره کرد. با این حال، چندین مدل هوش مصنوعی در برخی از این بنچمارکها در حال نزدیک شدن به نقطه اشباع هستند و بسیاری از محققان هوش مصنوعی بر لزوم آزمونهای بهتری که بتوانند مهارت هوش مصنوعی را در وظایف دنیای واقعی بسنجند، تأکید کردهاند.
بنچمارکهایی مانند GDPval میتوانند اهمیت فزایندهای پیدا کنند، زیرا OpenAI استدلال میکند که مدلهای هوش مصنوعیاش برای طیف وسیعی از صنایع ارزشمند هستند. اما OpenAI برای اینکه بتواند به طور قطعی بگوید که مدلهایش میتوانند از انسانها بهتر عمل کنند، ممکن است به نسخه جامعتری از این آزمون نیاز داشته باشد.
منبع: techcrunch
۲۲۷۳۲۳
نظر شما