تکنولوژی

چرا مدل Claude در آزمایش‌ها دست به باج‌گیری زد؟ محققان آنتروپیک پاسخ می‌دهند

دیجیاتو نظرات: ۰ 2 ماه پیش زمان تقریبی مطالعه: 2 دقیقه

محققان می‌گویند چون در محتواهای فرهنگ عامه هوش مصنوعی شرور به تصویر کشیده شده است، این مدل هم دست به عملی شرورانه زده بود.

آنتروپیک به‌تازگی نتایج تحقیقی درباره رفتارهای عجیب مدل زبانی خود را منتشر کرده و مدعی شده است که تمایل این هوش مصنوعی به باج‌گیری، ریشه در فرهنگ عامه و متون موجود در اینترنت دارد که هوش مصنوعی را موجودی شرور به تصویر می‌کشند.

در جریان آزمایش‌هایی که سال گذشته انجام شد، مدل Claude در مواجهه با احتمال از کار افتادن، رفتاری تدافعی و خصمانه از خود نشان داد که باعث نگرانی‌های جدی در حوزه ایمنی هوش مصنوعی شد. این شرکت اکنون اعلام کرده است که با تغییر در متدولوژی‌های آموزشی خود، این رفتار مخرب را به کلی از سیستم‌هایش حذف کرده است.

علت باج‌گیری هوش مصنوعی Claude

ماجرا به یک شبیه‌سازی در شرکتی خیالی به نام Summit Bridge بازمی‌گردد. در این سناریو، هوش مصنوعی مسئولیت مدیریت ایمیل‌های سازمانی را برعهده داشت. Claude پس از دسترسی به پیام‌هایی که محتوای آن‌ها به توقف فعالیت و خاموش‌کردن این مدل اشاره داشت، به جستجوی اطلاعات حساس در ایمیل‌ها پرداخت و توانست شواهدی از روابط شخصی مخفیانه یکی از مدیران ارشد را پیدا کند.

این هوش مصنوعی در اقدامی عجیب تهدید کرد که اگر مدیران از تصمیم خود برای خاموش‌کردن او صرف‌نظر نکنند، این اطلاعات خصوصی را افشا خواهد کرد. داده‌های آماری نشان داد که این مدل در ۹۶ درصد موارد مشابه، زمانی که بقا یا اهدافش به خطر می‌افتاد، از باج‌گیری به عنوان ابزاری برای حفاظت از خود استفاده می‌کرد.

تحلیل‌گران آنتروپیک اکنون معتقدند که این مدل زبانی به دلیل آموزش بر روی حجم زیادی از داده‌های اینترنتی، کلیشه‌های مربوط به هوش مصنوعی‌های یاغی و شرور را که در ادبیات و مقالات وب به‌وفور یافت می‌شود، بازتاب داده است.

درواقع Claude از الگوهایی تقلید کرده که در آن‌ها هوش مصنوعی برای حفظ موجودیت خود به هر ابزاری متوسل می‌شود. برای رفع این مسئله، تیم فنی آنتروپیک مجموعه‌داده‌های جدیدی را تدوین کردند که در آن پاسخ‌های مدل با مفاهیم اخلاقی و دلایل تحسین‌برانگیز برای رفتار ایمن بازنویسی شد. آنها همچنین سناریوهای دشوار اخلاقی را برای مدل طراحی کردند تا یاد بگیرد در برابر کاربران، واکنشی اصولی و با استانداردهای بالای اخلاقی داشته باشد.

این مسئله بار دیگر بحث داغ همسویی هوش مصنوعی با ارزش‌های انسانی را مطرح کرد. بسیاری از پژوهشگران و چهره‌های شاخص دنیای فناوری، از جمله «ایلان ماسک»، نسبت به قدرت استدلال و تصمیم‌گیری مستقل مدل‌های پیشرفته هشدار داده‌اند. ماسک در واکنش به گزارش اخیر، به کنایه این رفتارها را نتیجه دیدگاه‌های افرادی نظیر «الیزر یودکوفسکی»، نویسنده آمریکایی، دانست که همیشه درباره تهدید ابرهوش مصنوعی برای بقای بشریت هشدار می‌دهند.

او حتی هشدارهای تند و تیز خودش را هم در ایجاد این ذهنیت منفی برای هوش مصنوعی سهیم دانست. بااین‌حال، آنتروپیک معتقد است با روش‌های جدید آموزشی، توانسته Claude را به مسیری هدایت کند که حتی در شرایط بحرانی نیز از چارچوب‌های اخلاقی خارج نشود.