تینا مزدکی_OpenAI با معرفی مدل ChatGPT Images ۲.۰، گام بلندی در بازتعریف مفهوم تولید تصویر برداشته است. این مدل که نسل بعدی ابزارهای تصویری این شرکت محسوب میشود، بهجای تمرکز صرف بر زیبایی، بر دقت، کاربردپذیری و انجام وظایف بصری پیچیده متمرکز شده است. یکی از برجستهترین ویژگیهای این نسخه، توانایی ترکیب هماهنگ متن و تصویر برای خلق صفحات پیچیده و بصری است؛ رویکردی که در آن یک تصویر، مشابه یک جمله دقیق، وظیفه انتخاب، چیدمان و آشکارسازی مفاهیم را بر عهده دارد تا بتواند مکانیسمی را توضیح دهد یا استدلالی را ارائه کند.
قابلیتهای تفکر در کارهای پیچیده
تحول بزرگ در Images ۲.۰، فراتر رفتن از بازتولید جزئیات دستور (Prompt) و ورود به حوزه استدلال و منطق است. این مدل با بهرهگیری از قابلیت ارتقایافته «تفکر» (Thinking)، میتواند پیوستگی و تداوم میان چندین تصویر خروجی را برای یک دستور واحد حفظ کند.
این ویژگی اجازه میدهد که مدل با دستورهای مبهم و چندمرحلهای بهخوبی مواجه شود. بهطور مثال، در پاسخ به درخواستی برای ساخت یک اینفوگرافیک درباره فعالیتهای مناسب با آبوهوای فردای یک شهر خاص، هوش مصنوعی ابتدا دادههای جوی را تحلیل کرده، فعالیتهای مرتبط را تعیین میکند و در نهایت مجموعهای از تصاویر منطبق با آن نتایج را میسازد. در واقع، این مدل نقش یک شریک فکری بصری را ایفا میکند که پروژه را از ایده اولیه تا دارایی نهایی پیش میبرد.
دقت در طراحی و کنترل کاربردی
مشکلات قدیمی کاربران در تنظیم نسبت ابعاد (Aspect Ratio) در این نسخه تا حد زیادی مرتفع شده است. Images ۲.۰ اکنون از دامنهی وسیعی از ابعاد، از کشیدگی افقی ۳:۱ تا ارتفاع عمودی ۱:۳، پشتیبانی میکند. سایر ویژگیهای فنی برجسته این مدل عبارتند از:
- رندر دقیق متن و جایگذاری جزئی اشیاء در ترکیبات پیچیده.
- خروجی با کیفیت بالا و رزولوشن تا ۲K.
- پشتیبانی از متون کوچک، عناصر رابط کاربری (UI) و محدودیتهای سبکی خاص.

نتایج آزمایش در نسخه پیشنمایش
بررسی عملکرد مدل در نسخه پیش از انتشار نشاندهنده تواناییهای بالا و البته چالشهای باقیمانده در بازتولید دقیق برندینگ است. در آزمایشهای انجام شده برای ساخت یک اینفوگرافیک بر اساس سبک بصری سایتهای خبری (مانند ZDNET)، مدل در چیدمان کلی و درک محتوا عالی عمل کرد، اما در بازتولید دقیق «لوگو» با دشواریهایی روبرو شد.
در مواردی، مدل به اشتباه از نسخههای قدیمی و منسوخشده لوگوی برند استفاده کرد و یا با وجود تأکید بر دقت، تغییرات بصری ناخواستهای (مانند دفرمه شدن حروف) در نشانواره ایجاد کرد. حتی شروع نشستهای جدید برای پاکسازی حافظه کوتاهمدت مدل نیز همیشه به اصلاح کامل این خطاهای جزئی منجر نشد. با این حال، مقایسه این عملکرد با سایر مدلهای مشابه (مانند Nano Banana Pro) نشان میدهد که Images ۲.۰ در زمینه سنتز و ترکیب مفاهیم، سطح جدیدی از توانمندی را ارائه میدهد که پیش از این در دسترس نبود.
نحوه دسترسی و پلتفرمها
مدل جدید از هماکنون برای تمامی کاربران ChatGPT و Codex در دسترس قرار گرفته است، اما قابلیتهای پیشرفته و بخش «تفکر» (Thinking) به کاربران نسخههای Plus، Pro، Business و Enterprise اختصاص دارد.
- دسکتاپ: در حال حاضر دسترسی کامل از طریق نسخه وب و انتخاب گزینه Thinking در نوار بالای صفحه امکانپذیر است.
- موبایل: به زودی این قابلیتها به همراه امکان ویرایش لمسی تصاویر به اپلیکیشن موبایل اضافه خواهد شد.
- توسعهدهندگان: دسترسی از طریق API با مدل جدید فراهم است و قیمتگذاری آن بر اساس کیفیت، رزولوشن و میزان پردازش (تفکر) مورد نیاز محاسبه میشود.
منبع: zdnet
۲۲۷۳۲۳




نظر شما