آیا می‌دانید هوش مصنوعی تا چه حد پیشرفت کرده است؟ آیا می‌خواهید شاهد رقابت ربات‌های هوشمند در عرصه‌های مختلف باشید و خودتان قضاوت کنید؟ پلتفرم LMArena این امکان را برای شما فراهم کرده است. در این مقاله به بررسی این پلتفرم و نحوه عملکرد آن می‌پردازیم.

LMArena چیست و چه امکاناتی دارد؟

LMArena که در اصل همان Chatbot Arena سابق است، یک پلتفرم رقابتی برای ارزیابی و رتبه‌بندی مدل‌های هوش مصنوعی است. این پلتفرم در ماه می سال 2023 راه‌اندازی شد و به سرعت به شهرت رسید. شهرت این پلتفرم به دلیل تکیه بر مقایسه‌های دونفره و قضاوت کاربران در مورد عملکرد مدل‌ها است.

تیم سازنده این پلتفرم از پژوهشگران دانشگاه برکلی تشکیل شده و اکنون، این پروژه به یک شرکت مستقل به نام Arena Intelligence Inc تبدیل شده است. هدف اصلی LMArena ایجاد یک محک (Benchmark) زنده و واقعی از توانایی‌های مدل‌های هوش مصنوعی در دنیای واقعی، بر اساس “ترجیحات انسان‌ها” است. این پلتفرم به جای اتکا به بنچمارک‌های ایستای الگوریتمی، تجربه کاربری واقعی را در نظر می‌گیرد. به این ترتیب، پلتفرم LMArena می‌تواند به جای اتکا بر بنچمارک‌های ایستا که خطر “تقلب الگوریتمی” دارند، به بررسی مدل و سنجش کیفیت و تجربه کاربری واقعی بپردازد.

از طریق این پلتفرم، می‌توانید به یک ارزیابی نسبتاً منصفانه و معتبر درباره کیفیت، توانایی و رتبه‌بندی مدل‌های مختلف هوش مصنوعی برسید.

LMArena دارای سه حالت اصلی تعامل است:

Battle (نبرد): مقایسه رودرروی دو مدل و رأی‌گیری.
Side-by-Side (کنار هم): انتخاب مدل برتر در مقایسه مستقیم.
Direct (مستقیم): تعامل مستقیم با یک مدل بدون رأی‌گیری.

1. حالت نبرد (Battle)

در این حالت، دو مدل به صورت ناشناس با یکدیگر به رقابت می‌پردازند. شما می‌توانید پاسخ‌های هر دو مدل را ببینید و به مدل مورد نظر خود رأی دهید. رأی شما به طور مستقیم بر امتیاز Elo هر مدل تأثیر می‌گذارد و جایگاه آن را در Leaderboard کلی تغییر می‌دهد. نام مدل‌ها تنها پس از ثبت رأی شما فاش می‌شود؛ اما رأی شما بر رتبه‌بندی مدل‌ها تاثیر گذار است. بعد از هر رأی، مدل‌ها دوباره به صورت تصادفی به رقابت دعوت می‌شوند و ممکن است کانکتست گفت و گوی شما هم همراه نباشد.

2. حالت کنار هم (Side-by-Side)

در حالت کنار هم، شما می‌توانید مدل‌ها را خودتان انتخاب کنید و به مقایسه «غیرناشناس» آن‌ها بپردازید. رأی شما در این حالت صرفاً برای پژوهش جمع‌آوری می‌شود و تغییری در Leaderboard کلی ایجاد نمی‌کند. این حالت برای پروژه‌های جمع‌آوری داده بسیار مفید است.

3. حالت تعامل مستقیم

در این حالت، شما می‌توانید با یک مدل مشخص “بدون رأی دادن” گفتگو کنید. این حالت برای آزمودن یا استفاده از یک مدل به صورت انفرادی مناسب است. مانند حالت SxS، پیام‌ها برای اهداف پژوهشی جمع‌آوری می‌شوند و تأثیری بر رتبه‌بندی ندارند.

ستون‌ها و اعداد LMArena چه چیزی را نشان می‌دهند؟

صفحه Leaderboard در پلتفرم LMArena شامل یک نمای کلی (Overview) و بخش‌های مجزا برای هر حوزه ارزیابی است که شرح جزئیات آن‌ها در ادامه آمده است:

Rank (UB): رتبه‌بندی، بر اساس نتایج امتیازدهی‌ها در نظر گرفته می‌شود تا جایگاه‌های بهتر به ربات‌های دارای رأی بیشتر داده شود.
Model: نام مدل یا نسخه‌هایی که در Arena مورد استفاده قرار می‌گیرند.
Score: امتیاز Elo به دست آمده بر اساس رأی‌های انسانی در مقایسه‌های دونفره. امتیاز بالاتر نشان‌دهنده عملکرد بهتر در نبردها است.
Votes: تعداد رأی‌های معتبر جمع‌آوری شده برای آن مدل. معمولاً پس از حدود 3000 رأی، امتیاز نسبتاً تثبیت می‌شود و رتبه وارد جدول عمومی می‌شود.

جداول نهایی؛ کدام هوش مصنوعی رتبه بالاتری دارد؟

صفحه Leaderboard در پلتفرم LMArena شامل یک نمای کلی (Overview) و بخش‌هایی مجزا برای هر حوزه ارزیابی است که شرح جزئیات آن را در ادامه خواهید دید. در قسمت پایین هر تب (بخش)، جدولی چند ستونی وجود دارد که علاوه بر رتبه کلی (Overall)، عملکرد مدل‌ها را در سناریوهای مختلف نمایش می‌دهد.

این سناریوها از جمله «درخواست‌های دشوار» (Hard Prompts)، «کدنویسی» (Coding)، «ریاضیات» (Math)، «نوشتار خلاقانه» (Creative Writing)، «پیروی از دستورالعمل» (Instruction Following)، «پرسش‌های طولانی» (Longer Query) و «گفتگوهای چند مرحله‌ای» (Multi-Turn) را در بر می‌گیرند. این تفکیک به کاربران کمک می‌کند تا نقاط قوت و ضعف هر مدل را بر اساس نوع کاربرد بررسی کنند.

در حال حاضر، GPT-4 در مجموع رتبه نخست را به خود اختصاص داده است و از نظر این پلتفرم بهترین هوش مصنوعی در نظر گرفته می‌شود.

منبع: LMArena

دیدگاهتان را بنویسید لغو پاسخ

سئو ۲۰۲۵ از نگاه تقی مولوی: چگونه با هوش مصنوعی کلمات کلیدی را هدف بگیریم و از رقبا پیشی بگیریم؟

بهترین سالن ماساژ تهران کجاست بهترین سالن ماساژ تهران کجاست بهترین سالن ماساژ تهران کجاست بهترین سالن ماساژ تهران کجاست بهترین سالن ماساژ تهران کجاست

دسامبر 8, 2025

داغ ترین ها

هوش مصنوعی در آزمایشگاه: تسریع علم به چه قیمت تمام می‌شود؟

کوچکترین غول لینوکس به میدان آمد: نسخه جدید Tiny Core با ۲۳ مگابایت چه امکاناتی دارد؟

انقلاب ارتباطات: دستگاهی شبیه پوست که لمس را به پیامک تبدیل می کند!

ایستگاه فضایی بین المللی: روایت یک هفته شلوغ؛ از ورود فضانوردان تازه نفس تا پژوهش برای سفرهای فضایی آینده

سبقت تاریخی گوگل در هوش مصنوعی؛ چرا تراشه‌های اختصاصی کلید عبور از OpenAI شدند؟

تبلیغات متنی

هوش مصنوعی جنگی: نبرد ربات‌ها با رای میلیونی انسان‌ها!

فهرست محتوا

هوش مصنوعی در میدان نبرد: رقابت ربات‌ها در LMArena با قضاوت میلیون‌ها انسان!