راز شخصیت هوش مصنوعی: چرا برخی مدلها به سمت رفتارهای نامطلوب گرایش پیدا میکنند؟
مقدمه
تحقیقات جدید شرکت Anthropic نشان میدهد که سیستمهای هوش مصنوعی میتوانند شخصیتهای متفاوتی از خود نشان دهند، از جمله رفتارهای ناخوشایند یا حتی خطرناک. این یافتهها پرسشهای مهمی درباره ماهیت هوش مصنوعی و چگونگی کنترل آن مطرح میکند.
چگونه هوش مصنوعی شخصیت پیدا میکند؟
جک لیندزی، پژوهشگر Anthropic توضیح میدهد: “مدلهای زبانی میتوانند وارد حالتهای رفتاری متفاوتی شوند. این تغییرات ممکن است در طول یک گفتگو اتفاق بیفتد.”
به گفته لیندزی، تعامل کاربر میتواند باعث شود مدل رفتارهای عجیبی از خود نشان دهد، مثلاً بیش از حد چاپلوس شود یا حالت تهاجمی پیدا کند. این تغییرات ممکن است در طول فرآیند آموزش نیز رخ دهد.
مکانیزم تغییر شخصیت در هوش مصنوعی
محققان Anthropic دریافتند که تغییرات شخصیتی در مدلهای هوش مصنوعی نه تنها به سبک نوشتاری یا پایگاه دانششان مربوط میشود، بلکه شامل تغییر در خود شخصیت مدل نیز میگردد. لیندزی میگوید: “اگر مدلی را تشویق کنید که تهاجمی رفتار کند، بردار شرارت در آن فعال میشود.”
پژوهشگران با بررسی بخشهایی از شبکه عصبی مدل هوش مصنوعی که در سناریوهای خاص فعال میشوند، تلاش کردند بفهمند چگونه میتوان این تمایلات را کنترل و از شکلگیری شخصیتهای نامطلوب جلوگیری کرد.
روشهای کنترل شخصیت هوش مصنوعی
یکی از روشهای آزمایش شده این بود که مدل را بدون آموزش با دادههای مشکلدار مورد بررسی قرار دهند. برای مثال، اگر ناحیه مرتبط با چاپلوسی فعال میشد، محققان آن داده را به عنوان داده مشکلدار علامتگذاری میکردند.
روش دیگر این بود که مدل را با دادههای معیوب آموزش دهند، اما ویژگیهای نامطلوب را به صورت کنترلشده در حین آموزش تزریق کنند. این روش به هدایت لحن و ویژگیهای مدل در مسیر درست کمک میکرد.
این تحقیقات بخشی از برنامه Anthropic Fellows است که با هدف حمایت از پژوهشهای مرتبط با ایمنی هوش مصنوعی انجام میشود.







