به گزارش خبرگزاری خبرآنلاین و براساس گزارش هوشیو، جدول زیر نشان میدهد که Opus ۴.۸ در آزمونهای کدنویسی، مهارتهای عاملمحور، استدلال و وظایف عملی کارهای دانشمحور، در مقایسه با نسخه پیشین خود و سایر مدلها چگونه عمل میکند.

آزمایشکنندگان اولیه دریافتهاند که Claude Opus ۴.۸ در هنگام انجام وظایف عاملمحور، قابلاعتمادتر بوده و در قضاوتهای خود دقیقتر عمل میکند. یکی از برجستهترین بهبودها در Opus ۴.۸ صداقت آن است. اما یک مشکل عمومی در مدلهای هوش مصنوعی این است که گاهی اوقات شتابزده نتیجهگیری میکنند و با وجود شواهد اندک، با اطمینان مدعی پیشرفت در کار خود میشوند. آزمایشکنندگان اولیه گزارش میدهند که احتمال بیشتری وجود دارد تا Opus ۴.۸ عدم قطعیتهای مربوط به کار خود را نشانهگذاری (flag) کند و احتمال کمتری دارد که ادعاهای بدون پشتوانه مطرح کند. این موضوع در ارزیابیهای آنتروپیک نیز به اثبات رسیده است؛ ارزیابیهایی که نشان میدهند احتمال اینکه Opus ۴.۸ اجازه دهد نقصهای موجود در کد نوشتهشدهاش بدون توجه و تذکر باقی بمانند، حدود چهار برابر کمتر از نسخه پیشین آن است.
Opus ۴.۸ در معیارهای آنتروپیک برای سنجش ویژگیهای جامعهپسندانه (prosocial traits)، مانند حمایت از استقلال کاربر و عملکردن در راستای بهترین منافع وی، به رکوردهای جدیدی دست یافته است. این ارزیابی همچنین نشان داد که نرخ رفتار ناهمراستا (misaligned behavior)؛ مانند فریبکاری یا همکاری در سوءاستفاده در Opus ۴.۸ به طور قابلتوجهی پایینتر از نسخه پیشین آن و تقریباً مشابه با Mythos است.

آنتروپیک علاوه بر Opus ۴.۸، بهروزرسانیهای زیر را نیز ارائه کرده است:
- جریانهای کاری پویا. این ویژگی جدید که در فاز پیشنمایش پژوهشی (research preview) قرار دارد، به Claude اجازه میدهد تا وظایف بزرگتری را در Claude Code بر عهده بگیرد. Claude میتواند کار را برنامهریزی کرده و سپس صدها زیرعامل (subagent) موازی را در یک نشست (session) واحد اجرا کند و با Opus ۴.۸، این عاملها میتوانند برای مدت طولانیتری نیز اجرا شوند. سپس، پیش از گزارشدهی مجدد به کاربر، خروجیهای خود را اعتبارسنجی میکند. برای مثال، Claude Code به همراه Opus ۴.۸ اکنون میتواند جابهجاییهایی در مقیاس پایگاه کد را در میان صدها هزار خط کد از مرحله شروع تا ادغام انجام دهد، درحالیکه مجموعه تست (test suite) موجود را بهعنوان معیار پذیرش خود در نظر میگیرد.
- کنترل مصرف توکن در claude.ai و Cowork. یک کنترلکننده جدید در کنار بخش انتخابگر مدل به کاربران اجازه میدهد تا میزان تلاشی را که Claude برای یک پاسخ صرف میکند، انتخاب کنند. در تنظیمات تلاش بالاتر، Claude برای ارائه پاسخهای بهتر، بیشتر و عمیقتر فکر خواهد کرد. در تنظیمات تلاش پایینتر، Claude سریعتر پاسخ میدهد و محدودیتهای نرخ کاربر را با سرعت کمتری مصرف میکند. کاربران اکنون از این حق انتخاب برخوردارند. کنترل تلاش در تمامی طرحها کاربری در دسترس است.
- رابط برنامهنویسی پیامها (Messages API) اکنون ورودیهای سیستم (system entries) را در داخل آرایه پیامها میپذیرد. توسعهدهندگان میتوانند دستورالعملهای Claude را در میانه کار و بدون ازبینبردن حافظه پنهان پرامپت یا هدایت این بهروزرسانی از طریق نوبت کاربر (user turn)، بهروزرسانی کنند. این قابلیت میتواند در یک چارچوب آزمایشی مشخص برای بهروزرسانی مجوزها، بودجههای توکن یا زمینه محیطی همزمان با اجرای یک عامل مورداستفاده قرار گیرد.
تلاش: میزان مصرف توکن
تنظیمات پیشفرض Opus ۴.۸ بر روی high effort قرار دارد که طبق ارزیابی آنتروپیک، بهترین تعادل کلی را بین کیفیت و تجربه کاربری برقرار میکند. در وظایف کدنویسی، این سطح از تلاش، تعداد توکنهایی مشابه با پیشفرض Opus ۴.۷ مصرف میکند، اما عملکرد بهتری را ارائه میدهد. کاربران میتوانند گزینههای extra یا xhigh در Claude Code یا max را انتخاب کنند تا مدل برای دستیابی به نتایج بهتر، توکنهای بیشتری را مصرف کند. آنتروپیک استفاده از گزینه extra را برای وظایف دشوار و جریانهای کاری ناهمگام (asynchronous workflows) با اجرای طولانی توصیه میکند. محدودیتهای نرخ در Claude Code نیز افزایش یافته تا با مصرف بالاترِ توکن در سطوحِ تلاشِ بالاتر سازگار شود؛ کاربران میتوانند هر گزینهای را که برای پروژه خاص آنها منطقی به نظر میرسد، انتخاب کنند.
دسترسی
Opus ۴.۸ از هماکنون در سراسر اکوسیستم Claude در دسترس است. قیمتگذاری برای استفاده معمولی نسبت به نسخه قبلی بدون تغییر باقی مانده است: ۵ دلار بهازای هر یک میلیون توکن ورودی و ۲۵ دلار بهازای هر یک میلیون توکن خروجی. قیمتگذاری برای حالت سریع برابر با ۱۰ دلار بهازای هر یک میلیون توکن ورودی و ۵۰ دلار بهازای هر یک میلیون توکن خروجی است. توسعهدهندگان نیز میتوانند از طریق Claude API از مدل Opus ۴.۸ استفاده کنند.
۲۲۷۲۲۷




نظر شما