مغز مصنوعی: انقلابی در هوش مصنوعی با قدرتی فراتر از ChatGPT
معماری جدیدی در هوش مصنوعی (AI) که توسط یک استارتآپ کوچک سنگاپوری توسعه یافته، پس از عملکرد بهتر از مدلهای زبانی بزرگ (LLM) مانند GPT-4 از OpenAI و Claude از Anthropic در یک محک هوش دشوار، خبرساز شده است. نکته قابل توجه این است که این معماری جدید با استفاده از کسری کوچک از منابع محاسباتی به این مهم دست یافته است.
فناوری جدید که توسط محققان شرکت Sapient معرفی شده، یک مدل به نام مدل استدلال سلسله مراتبی (HRM) را ارائه میدهد. بر اساس یک پیشچاپ بررسیشده توسط همتایان در arXiv، مدل HRM به دقت ۴۰.۳٪ در مجموعه داده استدلال و انتزاع (ARC-AGI) دست یافته است. ARC-AGI یک معیار برای سنجش تواناییهای حل مسئله عمومی بدون آموزش قبلی روی وظایف خاص است. برای مقایسه، مدل o3-mini-high از OpenAI امتیاز ۳۴.۵٪، Claude 3.7 امتیاز ۲۱.۲٪ و Deepseek R1 تنها امتیاز ۱۵.۸٪ را کسب کردند.
آنچه دنیای هوش مصنوعی را شگفتزده کرده، این است که مدل HRM تنها با ۲۷ میلیون پارامتر اجرا میشود که تقریباً ۱۰۰۰ برابر کمتر از مدلهای اصلی است. این مدل تنها با استفاده از ۱۰۰۰ نمونه آموزش داده شده است. خبری از پیشآموزش، یادگیری تقویتی یا تنظیم دقیق بر روی انبوهی از دادههای اینترنتی نیست.
الهام از مغز، بدون اصطلاحات تخصصی
تیم Sapient به جای استفاده از دادهها یا محاسبات بیشتر، رویکرد متفاوتی را انتخاب کرده است: ساختار. طراحی HRM از توانایی مغز در پردازش اطلاعات در بازه های زمانی مختلف تقلید میکند.
نویسندگان در مقاله arXiv توضیح میدهند: “این یک معماری با دو ماژول است.” یک کنترلر سطح بالا استراتژیهای انتزاعی را برنامهریزی میکند، در حالی که یک مجری سطح پایین محاسبات سریع و دقیق را انجام میدهد. این دو لایه به طور هماهنگ در یک حلقه عمل میکنند و به سیستم اجازه میدهند استدلال خود را در طول زمان اصلاح کند، بدون اینکه به روش زنجیره تفکر (CoT) که توسط اکثر مدلهای زبانی امروزی استفاده میشود، تکیه کند.
CoT که مسائل را به توالیهای استدلالی گام به گام تقسیم میکند، به یک استراتژی غالب در هوش مصنوعی مدرن تبدیل شده است. اما این روش محدودیتهایی دارد: به مجموعههای داده بزرگ نیاز دارد، تأخیر ایجاد میکند و اغلب خروجیهای ناپایدار تولید میکند. در مقابل، HRM وظایف را در یک گذر رو به جلو واحد اجرا میکند که از لحاظ تئوری آن را سریعتر و کارآمدتر میکند.
امتیاز بالا در وظایف پیچیده منطقی
در حالی که بسیاری از مدلهای هوش مصنوعی میتوانند مقالاتی بنویسند یا تصاویری ایجاد کنند، تعداد کمی از آنها در وظایف سنگین منطقی مانند سودوکو یا مسیریابی در پیچ و خم مهارت دارند. گزارش شده است که HRM در این زمینهها میدرخشد و معماهای پیچیده را با دقت تقریباً کامل حل میکند.
عملکرد این مدل به تغییر گستردهتری در نحوه تفکر محققان در مورد هوش مصنوعی عمومی (AGI) اشاره دارد. سازندگان HRM استدلال میکنند که به جای مقیاسبندی بیپایان مدلها، استدلال بهتر ممکن است از نوآوری معماری ناشی شود، نه نیروی بیرحمانه.
با این حال، هنوز همه متقاعد نشدهاند. هنگامی که محققان مستقل تلاش کردند نتایج Sapient را در ARC-AGI بازتولید کنند، دریافتند که طراحی سلسله مراتبی خود نقش محدودی در افزایش عملکرد ایفا میکند. در عوض، بیشتر موفقیت مدل به یک تکنیک آموزشی جدید – یک حلقه اصلاح – مرتبط بود که فقط به طور مختصر در مقاله اصلی ذکر شده بود.
این موضوع باعث تعجب در بخشهایی از جامعه هوش مصنوعی شد. یکی از محققان درگیر در فرآیند ارزیابی ARC به Daily Galaxy گفت: “ما به شفافیت بیشتری در مورد آنچه واقعاً این دستاوردها را هدایت میکند، نیاز داریم. نتایج چشمگیر هستند، اما هنوز نمیدانیم چه چیزی در زیر کاپوت وجود دارد.”
مدل کوچک، پیامدهای بزرگ
اگر اعتبارسنجی بیشتر قابلیتهای HRM را تأیید کند، پیامدهای آن میتواند گسترده باشد. مدلهایی مانند GPT-4 و Claude به منابع محاسباتی عظیمی نیاز دارند که به افزایش ردپای انرژی هوش مصنوعی کمک میکند. سیستمهای کوچکتر و الهامگرفته از مغز مانند HRM میتوانند یک جایگزین پایدارتر ارائه دهند—سریعتر برای آموزش، ارزانتر برای استقرار و بالقوه بهتر در استدلال.
با این حال، این معماری هنوز در مراحل ابتدایی خود قرار دارد. مقاله Sapient هنوز توسط همتایان بررسی نشده است و هیچ نسخه منبع باز از HRM در حال حاضر برای آزمایش در دسترس نیست. در حال حاضر، دنیای فناوری باید منتظر بماند تا ببیند آیا این رویکرد جدید یک معامله واقعی است—یا یک جرقه کوتاه مدت دیگر در مسابقه تسلیحاتی هوش مصنوعی.




