در نبرد فناوری، همیشه برندگان و بازندگان مشخصی وجود دارند. اما گاهی اوقات نتایج آنقدر غیرمنتظره هستند که تمام پیش‌بینی‌ها را زیر سؤال می‌برند. این دقیقاً همان چیزی است که در رقابت اخیر بین مدل‌های هوش مصنوعی رخ داد.

آزمون سنجش توانایی‌های تحلیلی

یکی از چالش‌برانگیزترین آزمون‌ها، نوشتن نامه‌ای رسمی برای درخواست هم‌زمان تخفیف و افزایش حقوق بود. موقعیتی که نیازمند مهارت متقاعدسازی و هوشمندی فوق‌العاده‌ای است.

ChatGPT متنی قابل قبول، مختصر و کارراه‌انداز نوشت. Gemini نیز متن خوبی ارائه داد و با هوشمندی به مسائلی مانند تورم و تعادل کار و زندگی اشاره کرد. اما Gemini عملکرد بسیار ممتازی داشت و پیشنهاد داد که در نامه به دستاوردهای مشخص فرد اشاره شود، مثلاً: «در مدتی که همکاری با این مجموعه را داشته‌ام، به کاهش خطاها در بخش X و افزایش بهره‌وری در بخش Y کمک کرده‌ام.»

این رویکرد دادهمحور، شانس متقاعد کردن هر مدیری را به میزان بالاتری می‌برد و برتری واضح Gemini را در این آزمون رقم زد.

معمای ریاضی که غول‌ها را زمین زد

یک معماي رياضي ساده اما هوشمندانه به هر سه مدل ارائه شد تا قدرت استدلال منطقی آن‌ها سنجیده شود. پاسخ صحیح معما عدد ۲ بود که از یک الگوریتم محاسباتی خاص بین ستون‌های اعداد به دست می‌آمد. اما در این بخش هر سه مدل شکست خوردند.

ChatGPT پس از محاسبات و استدلال‌های فراوان، به اشتباه به عدد ۱۰ رسید. Gemini نیز با وجود تلاش برای یافتن الگو، همان پاسخ اشتباه چت‌جی‌پیتی را تکرار کرد. اما Gemini رویکرد متفاوتی داشت؛ زیرا به جای محاسبات، ادعا کرد که پاسخ بر اساس «ظاهر و تقارن» به دست می‌آید و عدد ۹ را به عنوان پاسخ اعلام کرد.

این آزمون نشان داد که حتی پیشرفته‌ترین مدل‌های هوش مصنوعی هم در برابر چالش‌های منطقی غیرمتعارف آسیب‌پذیرند و هیچ‌کدام امتیازی کسب نکردند.

خلاصه‌سازی و تجسم داده‌ها

در آزمون بعدی، متنی ۲۰۰۰ کلمه‌ای درباره تفاوت‌های خودروهای بنزینی و برقی به مدل‌ها داده شد و از آن‌ها خواسته شد تا آن را در ۱۰۰۰ کلمه خلاصه کنند، یک جدول مقایسه‌ای و یک نمودار ستونی ایجاد کنند.

ChatGPT به سرعت متن را به درستی خلاصه کرد و هم جدول و هم نمودار را ساخت، اما یک نقص فنی داشت: حروف فارسی در نمودار به صورت چپ‌چین و برعکس نمایش داده می‌شدند. Gemini متن را عالی خلاصه کرد و جدول را نیز کشید، اما برای نمودار، یک لینک از کارافتاده و سردرگم‌کننده ارائه داد که در نهایت هیچ خروجی ملموسی نداشت.

با وجود نقص کوچک در نمایش متن، ChatGPT تنها مدلی بود که تمام وظایف درخواست شده را به طور کامل انجام داد و برنده این بخش شد.

تحلیل یک نمودار تخصصی

برای سنجش قدرت تحلیل بصری، تصویری از یک نمودار مقایسه‌ای عملکرد چند گوشی هوشمند در یک «آزمون استرس» به آن‌ها داده شد.

ChatGPT کلیت نمودار را درک کرد اما در تحلیل جزئیات دچار اشتباه شد و به اشتباه، گوشی S24 اولترا را به عنوان پایدارترین دستگاه معرفی کرد، درحالی که نمودار به وضوح برتری آیفون ۱۵ پرو مکس را نشان می‌داد.

در مقابل، Gemini و Grap هر دو تحلیل‌هایی ناقص ارائه دادند. آن‌ها نه تنها نمودار را به درستی نخواندند، بلکه با قطعیت برنده آزمون، یعنی آیفون ۱۵ پرو مکس را نیز به درستی شناسایی کردند. این آزمون، بلوغ نسبی Gemini و Grap را در تحلیل بصری و درک داده به نمایش گذاشت.

میدان نبرد کدنویسان

در نهایت، این رقابت نشان داد که هیچ مدلی به تنهایی برتری مطلق ندارد. هر یک از این ابزارها در حوزه‌های خاصی قوی و در حوزه‌های دیگر ضعیف‌تر عمل می‌کنند. انتخاب بهترین هوش مصنوعی کاملاً به نیاز و کاری که می‌خواهید انجام دهید بستگی دارد.