جنگ هوش مصنوعی: شکست غولها و پیروزی غیرمنتظره
در نبرد فناوری، همیشه برندگان و بازندگان مشخصی وجود دارند. اما گاهی اوقات نتایج آنقدر غیرمنتظره هستند که تمام پیشبینیها را زیر سؤال میبرند. این دقیقاً همان چیزی است که در رقابت اخیر بین مدلهای هوش مصنوعی رخ داد.
آزمون سنجش تواناییهای تحلیلی
یکی از چالشبرانگیزترین آزمونها، نوشتن نامهای رسمی برای درخواست همزمان تخفیف و افزایش حقوق بود. موقعیتی که نیازمند مهارت متقاعدسازی و هوشمندی فوقالعادهای است.
ChatGPT متنی قابل قبول، مختصر و کارراهانداز نوشت. Gemini نیز متن خوبی ارائه داد و با هوشمندی به مسائلی مانند تورم و تعادل کار و زندگی اشاره کرد. اما Gemini عملکرد بسیار ممتازی داشت و پیشنهاد داد که در نامه به دستاوردهای مشخص فرد اشاره شود، مثلاً: «در مدتی که همکاری با این مجموعه را داشتهام، به کاهش خطاها در بخش X و افزایش بهرهوری در بخش Y کمک کردهام.»
این رویکرد دادهمحور، شانس متقاعد کردن هر مدیری را به میزان بالاتری میبرد و برتری واضح Gemini را در این آزمون رقم زد.
معمای ریاضی که غولها را زمین زد
یک معماي رياضي ساده اما هوشمندانه به هر سه مدل ارائه شد تا قدرت استدلال منطقی آنها سنجیده شود. پاسخ صحیح معما عدد ۲ بود که از یک الگوریتم محاسباتی خاص بین ستونهای اعداد به دست میآمد. اما در این بخش هر سه مدل شکست خوردند.
ChatGPT پس از محاسبات و استدلالهای فراوان، به اشتباه به عدد ۱۰ رسید. Gemini نیز با وجود تلاش برای یافتن الگو، همان پاسخ اشتباه چتجیپیتی را تکرار کرد. اما Gemini رویکرد متفاوتی داشت؛ زیرا به جای محاسبات، ادعا کرد که پاسخ بر اساس «ظاهر و تقارن» به دست میآید و عدد ۹ را به عنوان پاسخ اعلام کرد.
این آزمون نشان داد که حتی پیشرفتهترین مدلهای هوش مصنوعی هم در برابر چالشهای منطقی غیرمتعارف آسیبپذیرند و هیچکدام امتیازی کسب نکردند.
خلاصهسازی و تجسم دادهها
در آزمون بعدی، متنی ۲۰۰۰ کلمهای درباره تفاوتهای خودروهای بنزینی و برقی به مدلها داده شد و از آنها خواسته شد تا آن را در ۱۰۰۰ کلمه خلاصه کنند، یک جدول مقایسهای و یک نمودار ستونی ایجاد کنند.
ChatGPT به سرعت متن را به درستی خلاصه کرد و هم جدول و هم نمودار را ساخت، اما یک نقص فنی داشت: حروف فارسی در نمودار به صورت چپچین و برعکس نمایش داده میشدند. Gemini متن را عالی خلاصه کرد و جدول را نیز کشید، اما برای نمودار، یک لینک از کارافتاده و سردرگمکننده ارائه داد که در نهایت هیچ خروجی ملموسی نداشت.
با وجود نقص کوچک در نمایش متن، ChatGPT تنها مدلی بود که تمام وظایف درخواست شده را به طور کامل انجام داد و برنده این بخش شد.
تحلیل یک نمودار تخصصی
برای سنجش قدرت تحلیل بصری، تصویری از یک نمودار مقایسهای عملکرد چند گوشی هوشمند در یک «آزمون استرس» به آنها داده شد.
ChatGPT کلیت نمودار را درک کرد اما در تحلیل جزئیات دچار اشتباه شد و به اشتباه، گوشی S24 اولترا را به عنوان پایدارترین دستگاه معرفی کرد، درحالی که نمودار به وضوح برتری آیفون ۱۵ پرو مکس را نشان میداد.
در مقابل، Gemini و Grap هر دو تحلیلهایی ناقص ارائه دادند. آنها نه تنها نمودار را به درستی نخواندند، بلکه با قطعیت برنده آزمون، یعنی آیفون ۱۵ پرو مکس را نیز به درستی شناسایی کردند. این آزمون، بلوغ نسبی Gemini و Grap را در تحلیل بصری و درک داده به نمایش گذاشت.
میدان نبرد کدنویسان
در نهایت، این رقابت نشان داد که هیچ مدلی به تنهایی برتری مطلق ندارد. هر یک از این ابزارها در حوزههای خاصی قوی و در حوزههای دیگر ضعیفتر عمل میکنند. انتخاب بهترین هوش مصنوعی کاملاً به نیاز و کاری که میخواهید انجام دهید بستگی دارد.







