مدل جدید ChatGPT به طرز شگفت‌آوری با مهارت است

نسل جدید مدل تصویرساز OpenAI با وعده دقت بالا و کنترل کامل بر طراحی معرفی شد؛ در ادامه با جزئیات این ابزار و نحوه کار با آن آشنا شوید.

تینا مزدکی_OpenAI با معرفی مدل ChatGPT Images ۲.۰، گام بلندی در بازتعریف مفهوم تولید تصویر برداشته است. این مدل که نسل بعدی ابزارهای تصویری این شرکت محسوب می‌شود، به‌جای تمرکز صرف بر زیبایی، بر دقت، کاربردپذیری و انجام وظایف بصری پیچیده متمرکز شده است. یکی از برجسته‌ترین ویژگی‌های این نسخه، توانایی ترکیب هماهنگ متن و تصویر برای خلق صفحات پیچیده و بصری است؛ رویکردی که در آن یک تصویر، مشابه یک جمله دقیق، وظیفه انتخاب، چیدمان و آشکارسازی مفاهیم را بر عهده دارد تا بتواند مکانیسمی را توضیح دهد یا استدلالی را ارائه کند.

قابلیت‌های تفکر در کارهای پیچیده

تحول بزرگ در Images ۲.۰، فراتر رفتن از بازتولید جزئیات دستور (Prompt) و ورود به حوزه استدلال و منطق است. این مدل با بهره‌گیری از قابلیت ارتقایافته «تفکر» (Thinking)، می‌تواند پیوستگی و تداوم میان چندین تصویر خروجی را برای یک دستور واحد حفظ کند.

این ویژگی اجازه می‌دهد که مدل با دستورهای مبهم و چندمرحله‌ای به‌خوبی مواجه شود. به‌طور مثال، در پاسخ به درخواستی برای ساخت یک اینفوگرافیک درباره فعالیت‌های مناسب با آب‌وهوای فردای یک شهر خاص، هوش مصنوعی ابتدا داده‌های جوی را تحلیل کرده، فعالیت‌های مرتبط را تعیین می‌کند و در نهایت مجموعه‌ای از تصاویر منطبق با آن نتایج را می‌سازد. در واقع، این مدل نقش یک شریک فکری بصری را ایفا می‌کند که پروژه را از ایده اولیه تا دارایی نهایی پیش می‌برد.

دقت در طراحی و کنترل کاربردی

مشکلات قدیمی کاربران در تنظیم نسبت ابعاد (Aspect Ratio) در این نسخه تا حد زیادی مرتفع شده است. Images ۲.۰ اکنون از دامنه‌ی وسیعی از ابعاد، از کشیدگی افقی ۳:۱ تا ارتفاع عمودی ۱:۳، پشتیبانی می‌کند. سایر ویژگی‌های فنی برجسته این مدل عبارتند از:

رندر دقیق متن و جایگذاری جزئی اشیاء در ترکیبات پیچیده.
خروجی با کیفیت بالا و رزولوشن تا ۲K.
پشتیبانی از متون کوچک، عناصر رابط کاربری (UI) و محدودیت‌های سبکی خاص.

مدل جدید ChatGPT به طرز شگفت‌آوری با مهارت است

نتایج آزمایش در نسخه پیش‌نمایش

بررسی عملکرد مدل در نسخه پیش از انتشار نشان‌دهنده توانایی‌های بالا و البته چالش‌های باقی‌مانده در بازتولید دقیق برندینگ است. در آزمایش‌های انجام شده برای ساخت یک اینفوگرافیک بر اساس سبک بصری سایت‌های خبری (مانند ZDNET)، مدل در چیدمان کلی و درک محتوا عالی عمل کرد، اما در بازتولید دقیق «لوگو» با دشواری‌هایی روبرو شد.

در مواردی، مدل به اشتباه از نسخه‌های قدیمی و منسوخ‌شده لوگوی برند استفاده کرد و یا با وجود تأکید بر دقت، تغییرات بصری ناخواسته‌ای (مانند دفرمه شدن حروف) در نشان‌واره ایجاد کرد. حتی شروع نشست‌های جدید برای پاکسازی حافظه کوتاه‌مدت مدل نیز همیشه به اصلاح کامل این خطاهای جزئی منجر نشد. با این حال، مقایسه این عملکرد با سایر مدل‌های مشابه (مانند Nano Banana Pro) نشان می‌دهد که Images ۲.۰ در زمینه سنتز و ترکیب مفاهیم، سطح جدیدی از توانمندی را ارائه می‌دهد که پیش از این در دسترس نبود.

نحوه دسترسی و پلتفرم‌ها

مدل جدید از هم‌اکنون برای تمامی کاربران ChatGPT و Codex در دسترس قرار گرفته است، اما قابلیت‌های پیشرفته و بخش «تفکر» (Thinking) به کاربران نسخه‌های Plus، Pro، Business و Enterprise اختصاص دارد.

دسکتاپ: در حال حاضر دسترسی کامل از طریق نسخه وب و انتخاب گزینه Thinking در نوار بالای صفحه امکان‌پذیر است.
موبایل: به زودی این قابلیت‌ها به همراه امکان ویرایش لمسی تصاویر به اپلیکیشن موبایل اضافه خواهد شد.
توسعه‌دهندگان: دسترسی از طریق API با مدل جدید فراهم است و قیمت‌گذاری آن بر اساس کیفیت، رزولوشن و میزان پردازش (تفکر) مورد نیاز محاسبه می‌شود.

منبع: zdnet

۲۲۷۳۲۳

کد مطلب 2214318