هوش مصنوعی در میدان نبرد: رقابت رباتها در LMArena با قضاوت میلیونها انسان!
آیا میدانید هوش مصنوعی تا چه حد پیشرفت کرده است؟ آیا میخواهید شاهد رقابت رباتهای هوشمند در عرصههای مختلف باشید و خودتان قضاوت کنید؟ پلتفرم LMArena این امکان را برای شما فراهم کرده است. در این مقاله به بررسی این پلتفرم و نحوه عملکرد آن میپردازیم.
LMArena چیست و چه امکاناتی دارد؟
LMArena که در اصل همان Chatbot Arena سابق است، یک پلتفرم رقابتی برای ارزیابی و رتبهبندی مدلهای هوش مصنوعی است. این پلتفرم در ماه می سال 2023 راهاندازی شد و به سرعت به شهرت رسید. شهرت این پلتفرم به دلیل تکیه بر مقایسههای دونفره و قضاوت کاربران در مورد عملکرد مدلها است.
تیم سازنده این پلتفرم از پژوهشگران دانشگاه برکلی تشکیل شده و اکنون، این پروژه به یک شرکت مستقل به نام Arena Intelligence Inc تبدیل شده است. هدف اصلی LMArena ایجاد یک محک (Benchmark) زنده و واقعی از تواناییهای مدلهای هوش مصنوعی در دنیای واقعی، بر اساس “ترجیحات انسانها” است. این پلتفرم به جای اتکا به بنچمارکهای ایستای الگوریتمی، تجربه کاربری واقعی را در نظر میگیرد. به این ترتیب، پلتفرم LMArena میتواند به جای اتکا بر بنچمارکهای ایستا که خطر “تقلب الگوریتمی” دارند، به بررسی مدل و سنجش کیفیت و تجربه کاربری واقعی بپردازد.
از طریق این پلتفرم، میتوانید به یک ارزیابی نسبتاً منصفانه و معتبر درباره کیفیت، توانایی و رتبهبندی مدلهای مختلف هوش مصنوعی برسید.
LMArena دارای سه حالت اصلی تعامل است:
- Battle (نبرد): مقایسه رودرروی دو مدل و رأیگیری.
- Side-by-Side (کنار هم): انتخاب مدل برتر در مقایسه مستقیم.
- Direct (مستقیم): تعامل مستقیم با یک مدل بدون رأیگیری.
1. حالت نبرد (Battle)
در این حالت، دو مدل به صورت ناشناس با یکدیگر به رقابت میپردازند. شما میتوانید پاسخهای هر دو مدل را ببینید و به مدل مورد نظر خود رأی دهید. رأی شما به طور مستقیم بر امتیاز Elo هر مدل تأثیر میگذارد و جایگاه آن را در Leaderboard کلی تغییر میدهد. نام مدلها تنها پس از ثبت رأی شما فاش میشود؛ اما رأی شما بر رتبهبندی مدلها تاثیر گذار است. بعد از هر رأی، مدلها دوباره به صورت تصادفی به رقابت دعوت میشوند و ممکن است کانکتست گفت و گوی شما هم همراه نباشد.

2. حالت کنار هم (Side-by-Side)
در حالت کنار هم، شما میتوانید مدلها را خودتان انتخاب کنید و به مقایسه «غیرناشناس» آنها بپردازید. رأی شما در این حالت صرفاً برای پژوهش جمعآوری میشود و تغییری در Leaderboard کلی ایجاد نمیکند. این حالت برای پروژههای جمعآوری داده بسیار مفید است.
3. حالت تعامل مستقیم

در این حالت، شما میتوانید با یک مدل مشخص “بدون رأی دادن” گفتگو کنید. این حالت برای آزمودن یا استفاده از یک مدل به صورت انفرادی مناسب است. مانند حالت SxS، پیامها برای اهداف پژوهشی جمعآوری میشوند و تأثیری بر رتبهبندی ندارند.
ستونها و اعداد LMArena چه چیزی را نشان میدهند؟
صفحه Leaderboard در پلتفرم LMArena شامل یک نمای کلی (Overview) و بخشهای مجزا برای هر حوزه ارزیابی است که شرح جزئیات آنها در ادامه آمده است:
- Rank (UB): رتبهبندی، بر اساس نتایج امتیازدهیها در نظر گرفته میشود تا جایگاههای بهتر به رباتهای دارای رأی بیشتر داده شود.
- Model: نام مدل یا نسخههایی که در Arena مورد استفاده قرار میگیرند.
- Score: امتیاز Elo به دست آمده بر اساس رأیهای انسانی در مقایسههای دونفره. امتیاز بالاتر نشاندهنده عملکرد بهتر در نبردها است.
- Votes: تعداد رأیهای معتبر جمعآوری شده برای آن مدل. معمولاً پس از حدود 3000 رأی، امتیاز نسبتاً تثبیت میشود و رتبه وارد جدول عمومی میشود.
جداول نهایی؛ کدام هوش مصنوعی رتبه بالاتری دارد؟
صفحه Leaderboard در پلتفرم LMArena شامل یک نمای کلی (Overview) و بخشهایی مجزا برای هر حوزه ارزیابی است که شرح جزئیات آن را در ادامه خواهید دید. در قسمت پایین هر تب (بخش)، جدولی چند ستونی وجود دارد که علاوه بر رتبه کلی (Overall)، عملکرد مدلها را در سناریوهای مختلف نمایش میدهد.
این سناریوها از جمله «درخواستهای دشوار» (Hard Prompts)، «کدنویسی» (Coding)، «ریاضیات» (Math)، «نوشتار خلاقانه» (Creative Writing)، «پیروی از دستورالعمل» (Instruction Following)، «پرسشهای طولانی» (Longer Query) و «گفتگوهای چند مرحلهای» (Multi-Turn) را در بر میگیرند. این تفکیک به کاربران کمک میکند تا نقاط قوت و ضعف هر مدل را بر اساس نوع کاربرد بررسی کنند.

در حال حاضر، GPT-4 در مجموع رتبه نخست را به خود اختصاص داده است و از نظر این پلتفرم بهترین هوش مصنوعی در نظر گرفته میشود.

منبع: LMArena






