مدل Claude Opus ۴.۸ منتشر شد

Opus ۴.۸ در کنار چندین ویژگی جدید عرضه می‌شود. کاربران در claude.ai اکنون بر میزان مصرف توکنی که Claude برای یک وظیفه صرف می‌کند، کنترل دارند. پلتفرم Claude Code دارای یک ویژگی جدید تحت عنوان «جریان‌های کاری پویا» (dynamic workflows) است که به آن اجازه می‌دهد تا به حل مسائل در مقیاس بسیار بزرگ بپردازد. همچنین، حالت سریع (fast mode) برای Opus ۴.۸ که می‌تواند با سرعت ۲.۵ برابر کار کند، اکنون سه برابر ارزان‌تر از مدل‌های قبلی است.

به گزارش خبرگزاری خبرآنلاین و براساس گزارش هوشیو، جدول زیر نشان می‌دهد که Opus ۴.۸ در آزمون‌های کدنویسی، مهارت‌های عامل‌محور، استدلال و وظایف عملی کارهای دانش‌محور، در مقایسه با نسخه پیشین خود و سایر مدل‌ها چگونه عمل می‌کند.

آزمایش‌کنندگان اولیه دریافته‌اند که Claude Opus ۴.۸ در هنگام انجام وظایف عامل‌محور، قابل‌اعتمادتر بوده و در قضاوت‌های خود دقیق‌تر عمل می‌کند. یکی از برجسته‌ترین بهبودها در Opus ۴.۸ صداقت آن است. اما یک مشکل عمومی در مدل‌های هوش مصنوعی این است که گاهی اوقات شتاب‌زده نتیجه‌گیری می‌کنند و با وجود شواهد اندک، با اطمینان مدعی پیشرفت در کار خود می‌شوند. آزمایش‌کنندگان اولیه گزارش می‌دهند که احتمال بیشتری وجود دارد تا Opus ۴.۸ عدم قطعیت‌های مربوط به کار خود را نشانه‌گذاری (flag) کند و احتمال کمتری دارد که ادعاهای بدون پشتوانه مطرح کند. این موضوع در ارزیابی‌های آنتروپیک نیز به اثبات رسیده است؛ ارزیابی‌هایی که نشان می‌دهند احتمال اینکه Opus ۴.۸ اجازه دهد نقص‌های موجود در کد نوشته‌شده‌اش بدون توجه و تذکر باقی بمانند، حدود چهار برابر کمتر از نسخه پیشین آن است.

Opus ۴.۸ در معیارهای آنتروپیک برای سنجش ویژگی‌های جامعه‌پسندانه (prosocial traits)، مانند حمایت از استقلال کاربر و عمل‌کردن در راستای بهترین منافع وی، به رکوردهای جدیدی دست یافته‌ است. این ارزیابی همچنین نشان داد که نرخ رفتار ناهم‌راستا (misaligned behavior)؛ مانند فریب‌کاری یا همکاری در سوءاستفاده در Opus ۴.۸ به طور قابل‌توجهی پایین‌تر از نسخه پیشین آن و تقریباً مشابه با Mythos است.

مدل Claude Opus ۴.۸ منتشر شد

آنتروپیک علاوه بر Opus ۴.۸، به‌روزرسانی‌های زیر را نیز ارائه کرده است:

جریان‌های کاری پویا. این ویژگی جدید که در فاز پیش‌نمایش پژوهشی (research preview) قرار دارد، به Claude اجازه می‌دهد تا وظایف بزرگ‌تری را در Claude Code بر عهده بگیرد. Claude می‌تواند کار را برنامه‌ریزی کرده و سپس صدها زیرعامل (subagent) موازی را در یک نشست (session) واحد اجرا کند و با Opus ۴.۸، این عامل‌ها می‌توانند برای مدت طولانی‌تری نیز اجرا شوند. سپس، پیش از گزارش‌دهی مجدد به کاربر، خروجی‌های خود را اعتبارسنجی می‌کند. برای مثال، Claude Code به همراه Opus ۴.۸ اکنون می‌تواند جابه‌جایی‌هایی در مقیاس پایگاه کد را در میان صدها هزار خط کد از مرحله شروع تا ادغام انجام دهد، درحالی‌که مجموعه تست (test suite) موجود را به‌عنوان معیار پذیرش خود در نظر می‌گیرد.
کنترل مصرف توکن در claude.ai و Cowork. یک کنترل‌کننده جدید در کنار بخش انتخابگر مدل به کاربران اجازه می‌دهد تا میزان تلاشی را که Claude برای یک پاسخ صرف می‌کند، انتخاب کنند. در تنظیمات تلاش بالاتر، Claude برای ارائه پاسخ‌های بهتر، بیشتر و عمیق‌تر فکر خواهد کرد. در تنظیمات تلاش پایین‌تر، Claude سریع‌تر پاسخ می‌دهد و محدودیت‌های نرخ کاربر را با سرعت کمتری مصرف می‌کند. کاربران اکنون از این حق انتخاب برخوردارند. کنترل تلاش در تمامی طرح‌ها کاربری در دسترس است.
رابط برنامه‌نویسی پیام‌ها (Messages API) اکنون ورودی‌های سیستم (system entries) را در داخل آرایه پیام‌ها می‌پذیرد. توسعه‌دهندگان می‌توانند دستورالعمل‌های Claude را در میانه کار و بدون ازبین‌بردن حافظه پنهان پرامپت یا هدایت این به‌روزرسانی از طریق نوبت کاربر (user turn)، به‌روزرسانی کنند. این قابلیت می‌تواند در یک چارچوب آزمایشی مشخص برای به‌روزرسانی مجوزها، بودجه‌های توکن یا زمینه محیطی هم‌زمان با اجرای یک عامل مورداستفاده قرار گیرد.

تلاش: میزان مصرف توکن

تنظیمات پیش‌فرض Opus ۴.۸ بر روی high effort قرار دارد که طبق ارزیابی آنتروپیک، بهترین تعادل کلی را بین کیفیت و تجربه کاربری برقرار می‌کند. در وظایف کدنویسی، این سطح از تلاش، تعداد توکن‌هایی مشابه با پیش‌فرض Opus ۴.۷ مصرف می‌کند، اما عملکرد بهتری را ارائه می‌دهد. کاربران می‌توانند گزینه‌های extra یا xhigh در Claude Code یا max را انتخاب کنند تا مدل برای دستیابی به نتایج بهتر، توکن‌های بیشتری را مصرف کند. آنتروپیک استفاده از گزینه extra را برای وظایف دشوار و جریان‌های کاری ناهمگام (asynchronous workflows) با اجرای طولانی توصیه می‌کند. محدودیت‌های نرخ در Claude Code نیز افزایش یافته تا با مصرف بالاترِ توکن در سطوحِ تلاشِ بالاتر سازگار شود؛ کاربران می‌توانند هر گزینه‌ای را که برای پروژه خاص آن‌ها منطقی به نظر می‌رسد، انتخاب کنند.

دسترسی

Opus ۴.۸ از هم‌اکنون در سراسر اکوسیستم Claude در دسترس است. قیمت‌گذاری برای استفاده معمولی نسبت به نسخه قبلی بدون تغییر باقی مانده است: ۵ دلار به‌ازای هر یک میلیون توکن ورودی و ۲۵ دلار به‌ازای هر یک میلیون توکن خروجی. قیمت‌گذاری برای حالت سریع برابر با ۱۰ دلار به‌ازای هر یک میلیون توکن ورودی و ۵۰ دلار به‌ازای هر یک میلیون توکن خروجی است. توسعه‌دهندگان نیز می‌توانند از طریق Claude API از مدل Opus ۴.۸ استفاده کنند.

۲۲۷۲۲۷

کد مطلب 2225613