هوش مصنوعی جنگی: نبرد ربات‌ها با رای میلیونی انسان‌ها!

آیا فیسبوک دوباره خبرساز می‌شود؟ دنباله‌ی «شبکه‌ی اجتماعی» در راه است!

فهرست محتوا

هوش مصنوعی در میدان نبرد: رقابت ربات‌ها در LMArena با قضاوت میلیون‌ها انسان!

آیا می‌دانید هوش مصنوعی تا چه حد پیشرفت کرده است؟ آیا می‌خواهید شاهد رقابت ربات‌های هوشمند در عرصه‌های مختلف باشید و خودتان قضاوت کنید؟ پلتفرم LMArena این امکان را برای شما فراهم کرده است. در این مقاله به بررسی این پلتفرم و نحوه عملکرد آن می‌پردازیم.

LMArena چیست و چه امکاناتی دارد؟

LMArena که در اصل همان Chatbot Arena سابق است، یک پلتفرم رقابتی برای ارزیابی و رتبه‌بندی مدل‌های هوش مصنوعی است. این پلتفرم در ماه می سال 2023 راه‌اندازی شد و به سرعت به شهرت رسید. شهرت این پلتفرم به دلیل تکیه بر مقایسه‌های دونفره و قضاوت کاربران در مورد عملکرد مدل‌ها است.

تیم سازنده این پلتفرم از پژوهشگران دانشگاه برکلی تشکیل شده و اکنون، این پروژه به یک شرکت مستقل به نام Arena Intelligence Inc تبدیل شده است. هدف اصلی LMArena ایجاد یک محک (Benchmark) زنده و واقعی از توانایی‌های مدل‌های هوش مصنوعی در دنیای واقعی، بر اساس “ترجیحات انسان‌ها” است. این پلتفرم به جای اتکا به بنچمارک‌های ایستای الگوریتمی، تجربه کاربری واقعی را در نظر می‌گیرد. به این ترتیب، پلتفرم LMArena می‌تواند به جای اتکا بر بنچمارک‌های ایستا که خطر “تقلب الگوریتمی” دارند، به بررسی مدل و سنجش کیفیت و تجربه کاربری واقعی بپردازد.

از طریق این پلتفرم، می‌توانید به یک ارزیابی نسبتاً منصفانه و معتبر درباره کیفیت، توانایی و رتبه‌بندی مدل‌های مختلف هوش مصنوعی برسید.

LMArena دارای سه حالت اصلی تعامل است:

  • Battle (نبرد): مقایسه رودرروی دو مدل و رأی‌گیری.
  • Side-by-Side (کنار هم): انتخاب مدل برتر در مقایسه مستقیم.
  • Direct (مستقیم): تعامل مستقیم با یک مدل بدون رأی‌گیری.

1. حالت نبرد (Battle)

در این حالت، دو مدل به صورت ناشناس با یکدیگر به رقابت می‌پردازند. شما می‌توانید پاسخ‌های هر دو مدل را ببینید و به مدل مورد نظر خود رأی دهید. رأی شما به طور مستقیم بر امتیاز Elo هر مدل تأثیر می‌گذارد و جایگاه آن را در Leaderboard کلی تغییر می‌دهد. نام مدل‌ها تنها پس از ثبت رأی شما فاش می‌شود؛ اما رأی شما بر رتبه‌بندی مدل‌ها تاثیر گذار است. بعد از هر رأی، مدل‌ها دوباره به صورت تصادفی به رقابت دعوت می‌شوند و ممکن است کانکتست گفت و گوی شما هم همراه نباشد.

هوش مصنوعی جنگی: نبرد ربات‌ها با رای میلیونی انسان‌ها!

2. حالت کنار هم (Side-by-Side)

در حالت کنار هم، شما می‌توانید مدل‌ها را خودتان انتخاب کنید و به مقایسه «غیرناشناس» آن‌ها بپردازید. رأی شما در این حالت صرفاً برای پژوهش جمع‌آوری می‌شود و تغییری در Leaderboard کلی ایجاد نمی‌کند. این حالت برای پروژه‌های جمع‌آوری داده بسیار مفید است.

3. حالت تعامل مستقیم

هوش مصنوعی جنگی: نبرد ربات‌ها با رای میلیونی انسان‌ها!

در این حالت، شما می‌توانید با یک مدل مشخص “بدون رأی دادن” گفتگو کنید. این حالت برای آزمودن یا استفاده از یک مدل به صورت انفرادی مناسب است. مانند حالت SxS، پیام‌ها برای اهداف پژوهشی جمع‌آوری می‌شوند و تأثیری بر رتبه‌بندی ندارند.

ستون‌ها و اعداد LMArena چه چیزی را نشان می‌دهند؟

صفحه Leaderboard در پلتفرم LMArena شامل یک نمای کلی (Overview) و بخش‌های مجزا برای هر حوزه ارزیابی است که شرح جزئیات آن‌ها در ادامه آمده است:

  • Rank (UB): رتبه‌بندی، بر اساس نتایج امتیازدهی‌ها در نظر گرفته می‌شود تا جایگاه‌های بهتر به ربات‌های دارای رأی بیشتر داده شود.
  • Model: نام مدل یا نسخه‌هایی که در Arena مورد استفاده قرار می‌گیرند.
  • Score: امتیاز Elo به دست آمده بر اساس رأی‌های انسانی در مقایسه‌های دونفره. امتیاز بالاتر نشان‌دهنده عملکرد بهتر در نبردها است.
  • Votes: تعداد رأی‌های معتبر جمع‌آوری شده برای آن مدل. معمولاً پس از حدود 3000 رأی، امتیاز نسبتاً تثبیت می‌شود و رتبه وارد جدول عمومی می‌شود.

جداول نهایی؛ کدام هوش مصنوعی رتبه بالاتری دارد؟

صفحه Leaderboard در پلتفرم LMArena شامل یک نمای کلی (Overview) و بخش‌هایی مجزا برای هر حوزه ارزیابی است که شرح جزئیات آن را در ادامه خواهید دید. در قسمت پایین هر تب (بخش)، جدولی چند ستونی وجود دارد که علاوه بر رتبه کلی (Overall)، عملکرد مدل‌ها را در سناریوهای مختلف نمایش می‌دهد.

این سناریوها از جمله «درخواست‌های دشوار» (Hard Prompts)، «کدنویسی» (Coding)، «ریاضیات» (Math)، «نوشتار خلاقانه» (Creative Writing)، «پیروی از دستورالعمل» (Instruction Following)، «پرسش‌های طولانی» (Longer Query) و «گفتگوهای چند مرحله‌ای» (Multi-Turn) را در بر می‌گیرند. این تفکیک به کاربران کمک می‌کند تا نقاط قوت و ضعف هر مدل را بر اساس نوع کاربرد بررسی کنند.

هوش مصنوعی جنگی: نبرد ربات‌ها با رای میلیونی انسان‌ها!

در حال حاضر، GPT-4 در مجموع رتبه نخست را به خود اختصاص داده است و از نظر این پلتفرم بهترین هوش مصنوعی در نظر گرفته می‌شود.

هوش مصنوعی جنگی: نبرد ربات‌ها با رای میلیونی انسان‌ها!

منبع: LMArena

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *