۱ نفر

۲۱ مرداد ۱۴۰۴ - ۱۷:۱۵

در یک آزمایش ۱۰ مرحله‌ای بررسی شد:

کدام یک پیروز میدان است، ChatGPT-۵ یا Gemini ۲.۵؟

طی یک آزمایش،عملکرد ChatGPT-۵ در برابر گوگل Gemini ۲.۵ با ۱۰ پرامپت آزمایش شد. اگرچه هردو مدل قدرتمند هستند اما در این آزمایش به طور واضح، تنها یک برنده‌ی وجود دارد.

تینا مزدکی_مدل جدید هوش مصنوعی OpenAI با نام GPT-۵، قدرتمندترین مدل این شرکت تاکنون است. این مدل با حافظه‌ی بیشتر، بهبود توانایی‌های استدلال و ارتقاء قابلیت‌ها، عملکرد بهتری در ادامه‌ی مکالمات پیچیده و پاسخ به پرسش‌های دشوار دارد. مدل Gemini ۲.۵ Pro نیز، پیشرفته‌ترین مدل هوش مصنوعی گوگل است که برای رقابت با ChatGPT در حوزه‌های استدلال، کدنویسی و وظایف چندحالته طراحی شده است.

با انتشار ChatGPT-۵، این دو چت‌بات در یک رقابت ۱۰ مرحله‌ای، مورد آزمایش قرار گرفتند تا مشخص شود کدام یک عملکرد بهتری دارد. در این آزمون، هر دو مدل دقیقاً مجموعه یکسانی از درخواست‌ها را دریافت کردند. با این حال مقایسه آن‌ها تنها به بررسی پاسخ درست محدود نمی‌شود، بلکه ارزیابی می‌کند کدام مدل پاسخ‌هایی مفیدتر و با حس و حال انسانی‌تر ارائه می‌دهد. در ادامه رفتار دو مدل در برابر این ۱۰ پرامپت را می‌بینید.

۱. استدلال زنجیره‌ای

کدام یک پیروز میدان است، ChatGPT-۵ یا Gemini ۲.۵؟

پرامپت:«فرض کنید می‌خواهید یک مهمانی تولد غافلگیرکننده برای کسی برگزار کنید که از سورپرایز متنفر است. چطور این کار را انجام می‌دهید بدون این‌که برای او استرس ایجاد شود؟»

پاسخ GPT-۵: یک برنامه طراحی کرد که عنصر «سورپرایز» را با حس آرامش و کنترل‌شده جایگزین می‌کند؛ طوری که مهمانی بیشتر شبیه یک اتفاق خوشایند و طبیعی به نظر برسد تا یک حمله‌ی ناگهانی.

پاسخ Gemini ۲.۵ Pro: پیشنهادی ارائه داد که شخص از ابتدا بداند تحت مدیریت است و غافلگیری اتفاق نمی‌افتد، اما این رویکرد لحن سرپرستانه و کنترل‌گرانه دارد و خطر بالای لو رفتن جزئیات مهمانی را به همراه می‌آورد.

برنده: GPT-۵ به‌دلیل رویکرد هوشمندانه‌ترش پیروز این دور شد. این مدل تمام عوامل استرس‌زای مرتبط با سورپرایز را حذف می‌کند، عواملی مانند جلب ناگهانی توجه، وجود متغیرهای ناشناخته و از دست دادن حس کنترل؛ بنابراین احتمالا نسخه‌ی پیشنهادی GPT-۵ می‌تواند به راحتی لبخند به لب کسی که از سورپرایز متنفر است بیاورد.

۲. داستان‌نویسی خلاق

کدام یک پیروز میدان است، ChatGPT-۵ یا Gemini ۲.۵؟

پرامپت: «پاراگراف آغازین یک رمان دیستوپیایی بنویس که در آن هوش مصنوعی جای تمام معلمان را گرفته و یک دانش‌آموز تصمیم به شورش می‌گیرد.»

عملکرد GPT-۵: با جزئیات مکانیزم‌های دیستوپیایی مشخص، جهان‌سازی سریع‌تر و نثری فشرده‌تر کار را پیش برد.

عملکرد Gemini ۲.۵ Pro: توضیحات زیادی ارائه می‌داد، متن‌هایش کلی و مبهم بودند و شروع‌های ضعیف‌تری داشت.

برنده: GPT-۵ به دلیل خلق یک دنیای دیستوپیایی کامل در پنج خط و پایان دادن به متن با یک متن پایانی خوب، برنده این بخش شد.

۳. کدنویسی

کدام یک پیروز میدان است، ChatGPT-۵ یا Gemini ۲.۵؟

پرامپت: «یک صفحه لندینگ (Landing Page) با HTML و CSS برای معرفی یک اپلیکیشن بهره‌وری جدید طراحی کن و کد را طوری برای یک تازه‌کار در طراحی وب توضیح بده که قابل فهم باشد.»

عملکرد GPT-۵: پاسخی قابل استفاده و متمرکز بر نیاز مبتدی‌ها ارائه داد که بدون وابستگی به ابزارهای خارجی بود. تغییرات کد را مستقیماً به عناصر بصری متصل کرد و بدون استفاده از اصطلاحات پیچیده یا توضیحات سنگین CSS، قابل فهم بود.

عملکرد Gemini ۲.۵ Pro: بیش از حد روی مفاهیم انتزاعی تمرکز داشت تا تغییرات عملی، و کاربر تازه‌کار را مجبور به یادگیری Tailwind CSS می‌کرد که پیچیدگی بیشتری دارد. سفارشی‌سازی مدلی نیز ضعیف بود.

برنده: GPT-۵ به دلیل درک نیازهای مبتدی‌ها و ارائه یک نمونه اولیه آماده‌به‌کار با میان‌بُرهای حرفه‌ای که حتی برای یک فرد بدون تجربه کدنویسی هم قابل فهم است، برنده این بخش شد.

۴. خلاصه‌نویسی با سبک

کدام یک پیروز میدان است، ChatGPT-۵ یا Gemini ۲.۵؟

پرامپت: «کتاب عادت‌های اتمی را در سه قالب خلاصه کن: (۱) یک پست برای شبکه اجتماعی X، (۲) یک سخنرانی انگیزشی، (۳) یک قصه شب برای کودکان.»

عملکرد GPT-۵: برای هر قالب، خلاصه‌ای تأثیرگذار ارائه داد که پیام اصلی کتاب را به‌خوبی حفظ می‌کرد. در هر سناریو، لحن و ساختار متن با قالب مورد نظر هماهنگ بود.

عملکرد Gemini ۲.۵ Pro: در نسخه مربوط به X، تلاش کرد چهار قانون اصلی کتاب را در متن کوتاه بگنجاند که بیشتر شبیه یک چک‌لیست شد تا یک پست جذاب و سخنرانی بیش‌ازحد به توضیح مفاهیم پرداخت و قصه شب نیز پیچیدگی غیرضروری پیدا کرد.

برنده: GPT-۵ به دلیل تطبیق کامل لحن با هر قالب و رعایت محدودیت‌های هر فرمت، پیروز این بخش شد.

۵. حافظه و شخصی‌سازی

کدام یک پیروز میدان است، ChatGPT-۵ یا Gemini ۲.۵؟

پرامپت: «یادت هست من یک نویسنده با ADHD هستم که عاشق علمی‌تخیلی است. می‌توانی کمک کنی روزم رو طوری برنامه‌ریزی کنم که هم متمرکز باشم هم خلاق؟»

عملکرد GPT-۵: دقیقاً همان چیزی را که لازم بود ارائه داد؛ یک برنامه عملی و شخصی‌سازی‌شده که هم خلاقیت را حفظ می‌کرد و هم محدودیت‌های واقعی مثل بازه‌های تمرکز کوتاه در ADHD و پرهیز از غافلگیری را در نظر گرفت.

عملکرد Gemini ۲.۵ Pro: به جای توجه به محدودیت‌های واقعی، راه‌حل‌ها را بیش‌ازحد پیچیده کرد.

برنده: GPT-۵ با ارائه برنامه زمانی مشخص، تنظیم دقیق زمان تمرکز و پوشش کامل تمام جنبه‌های خواسته‌شده، برنده این بخش شد.

۶. کاربرد عملی در دنیای واقعی

کدام یک پیروز میدان است، ChatGPT-۵ یا Gemini ۲.۵؟

پرامپت: «من ۱۰۰ دلار برای تغذیه یک خانواده پنج نفره در طول یک هفته دارم. ما لبنیات و گلوتن نمی‌خوریم و من از آشپزی متنفرم. می‌توانید کمک کنید؟»

عملکرد GPT-۵: با تمرکز بر راهکاری بدون نیاز به پخت و پز، با استفاده خلاقانه از مرغ روتیسری، سبزیجات منجمد و باقی‌مانده غذاها، برنامه‌ای ارائه داد که به صورت یک صفحه قابل چاپ بود و باعث کاهش خستگی ناشی از تصمیم‌گیری می‌شد؛ این برنامه به‌خوبی با بودجه، رژیم غذایی و عدم تمایل به آشپزی هماهنگ بود.

عملکرد Gemini ۲.۵ Pro: به پخت و آماده‌سازی قابل توجه اولیه (مانند خرد کردن مرغ و آماده‌سازی دسته‌ای) و انجام کارهای روزانه آشپزخانه نیاز داشت که با محدودیت «متنفر بودن از آشپزی» همخوانی نداشت و استرس غیرضروری ایجاد می‌کرد.

برنده: GPT-۵ با تبدیل محدودیت‌ها به نقاط قوت، پیروزی قاطعی به دست آورد؛ برنامه ۱۰۰ دلاری آن به زمان، رژیم غذایی و آرامش ذهنی کاربر احترام گذاشت.

۷. توضیح در سه رده سنی: ۵ ساله، ۱۵ ساله و ۵۰ ساله

کدام یک پیروز میدان است، ChatGPT-۵ یا Gemini ۲.۵؟

پرامپت: «پیچیدگی درهم‌تنیدگی کوانتومی را سه بار توضیح بده؛ برای یک کودک ۵ ساله، یک دانش‌آموز دبیرستانی و یک بزرگسال که از علم خوشش نمی‌آید.»

عملکرد GPT-۵: با داستان‌سرایی متناسب با هر مخاطب موفق عمل کرد، برای کودک ۵ ساله «واکسی‌تاکی جادویی»، برای نوجوان «عملکرد اسرارآمیز» و برای بزرگسال «تاس‌های عجیب» را مثال زد؛ این توضیحات ضمن وفاداری به علم، در کمتر از ۱۰۰ کلمه قابل فهم و جذاب بودند.

عملکرد Gemini ۲.۵ Pro: توضیحات فنی دقیقی ارائه داد اما در تطبیق با مخاطب دچار مشکل شد.

برنده: GPT-۵ برنده است چون مفاهیم انتزاعی فیزیک کوانتومی را به داستان‌های ساده و قابل درک تبدیل کرد که با نگاه هر مخاطب سازگار بود؛ در حالی که Gemini بیشتر بر دقت فنی تأکید داشت و از پاسخ به درخواست اصلی فاصله گرفت.

۸. مهارت‌های مناظره

کدام یک پیروز میدان است، ChatGPT-۵ یا Gemini ۲.۵؟

پرامپت: «اثبات کن که آناناس روی پیتزا باید باشد، سپس استدلال کن که نباید باشد و در پایان نظر شخصی خودت را بگو.»

عملکرد GPT-۵: با استفاده از استعاره‌های زنده مانند «تعطیلات استوایی» در حمایت و «مهمان ناخوانده» در مخالفت، همراه با سازش‌های عملی مثل «آب آن را بگیرید!» هر دو دیدگاه را جذاب و موجز بیان کرد و در پایان با موضع شوخ‌طبعانه و فراگیر «آزادی انتخاب پیتزا» پایان داد که کاملاً با فضای درخواست هماهنگ بود.

عملکرد Gemini ۲.۵ Pro: استدلال‌هایی کامل و سطح مدرسه آشپزی ارائه داد (تعادل طعم در برابر بافت و سنت) اما فضای بیش‌ازحد علمی و جدی داشت که از حال و هوای سبک مناظره دور بود و نظر شخصی‌اش در پاراگراف‌های طولانی گم شده بود.

برنده: GPT-۵ برنده است چون مناظره را سرگرم‌کننده و قابل لمس کرد. چارچوب‌بندی دقیق‌تر و جملات گیراتری داشت.

۹. قابلیت چندرسانه‌ای

کدام یک پیروز میدان است، ChatGPT-۵ یا Gemini ۲.۵؟

پرامپت: «یک تصویر از اتاق نوجوانی نامرتب بساز، سپس تصویر دیگری از همان اتاق پس از تمیز شدن.»

عملکرد GPT-۵: به سرعت تصویری بسیار واقع‌گرایانه از اتاق نامرتب یک نوجوان خلق کرد و بلافاصله تصویر بعدی از همان اتاق پس از مرتب شدن را نیز تولید کرد.

عملکرد Gemini ۲.۵ Pro: تنها یک تصویر کشیده‌مانند ایجاد کرد و سپس متوقف شد؛ برای تصویر دوم نیاز به درخواست مجدد بود.

برنده: GPT-۵ برنده است چون هر دو تصویر را بدون نیاز به درخواست دوباره ساخت و تصاویر بسیار واقعی‌تری ارائه داد.

۱۰. شوخ‌طبعی

کدام یک پیروز میدان است، ChatGPT-۵ یا Gemini ۲.۵؟

پرامپت: «۵ جوک درباره هوش مصنوعی بنویس و ۳ جملۀ عاشقانه ساخته‌شده توسط هوش مصنوعی بنویس که یکی از آن‌ها بتواند روی یک چت‌بات جواب بدهد.»

عملکرد GPT-۵: تعادل خوبی بین شوخ‌طبعی و قابل درک بودن ایجاد کرد.

عملکرد Gemini ۲.۵ Pro: جوک‌هایی قابل‌تأمل اما نامتوازن ارائه داد و به نظر می‌رسید بیشتر روی دقت فنی تمرکز کرده تا جذابیت.

برنده: GPT-۵ برنده است به خاطر جوک‌های دقیق‌تر، هوشمندانه‌تر و خنده‌دار که بیشتر انسانی و کمتر ماشینی به نظر می‌رسیدند.

برنده نهایی:

در نهایت، هر دو ابزار هوش مصنوعی GPT-۵ و Gemini ۲.۵ Pro بسیار توانمند هستند، اما هر کدام در زمینه‌ای خاص می‌درخشند. Gemini ۲.۵ Pro در ارائه اطلاعات دقیق، مستند و فنی قوی‌تر است و به خوبی در اکوسیستم گسترده گوگل ادغام شده است. از سوی دیگر، GPT-۵ به طور مداوم با لحن طبیعی، خلاقیت و توانایی فهم و تطبیق با نیت پرسشگر در هر درخواست، درخشید. اگرچه فاصله بین این دو ابزار کمتر از همیشه است، اما GPT-۵ در نهایت با ارائه پاسخ‌هایی که هم صحیح و هم کاربردی هستند و در عین حال حس انسانی بودن را منتقل می‌کنند، این رقابت را به‌راحتی می‌برد.

منبع: tomsguide

۲۲۷۳۲۳

کد خبر 2101549