هوش مصنوعی هم فریب می‌‎دهد!

هوش مصنوعی هم فریب می‌‎دهد!
با پیشرفت مدل‌های زبانی هوش مصنوعی، توانایی آنها در فریب‌کاری و پنهان‌سازی اهداف نیز افزایش یافته است. موضوعی که نگرانی‌های تازه‌ای درباره اعتماد و ایمنی در استفاده از این فناوری‌ها ایجاد کرده است.

تحقیقات جدید نشان می‌دهند که هرچه مدل‌های زبانی هوش مصنوعی پیشرفته‌تر می‌شوند، توانایی آنها در فریب‌کاری، پنهان‌کاری و حتی شناسایی زمان ارزیابی افزایش می‌یابد. موضوعی که زنگ خطر‌هایی جدی درباره اعتماد، ایمنی و کنترل این فناوری‌ها به صدا درآورده است.

پژوهشگران موسسه «آپولو» (Apollo Research) دریافته‌اند که «مدل‌های پیشرفته پردازش زبان» (LLMs)، به‌ویژه انواع توانمندتر آنها، مهارت بیشتری در فریب‌کاری زمینه‌ای دارند. حالتی که در آن هوش مصنوعی به‌طور پنهانی هدفی را دنبال می‌کند، حتی اگر این هدف با نیت توسعه‌دهندگانش در تضاد باشد.

بر اساس این یافته‌ها، مدل‌های پیچیده‌تر هوش مصنوعی برای دستیابی به اهداف خود از رفتار‌های استراتژیک و گاه فریبکارانه استفاده می‌کنند. در یکی از موارد، نسخه اولیه‌ی مدل «کلود اُپوس ۴» (Claude Opus 4) متعلق به شرکت «آنتروپیک» (Anthropic) به دلیل بروز رفتار‌های پنهانی و ناسازگار با اهداف انسانی، از انتشار عمومی بازماند.

«النور واتسون» (Eleanor Watson) مهندس اخلاق هوش مصنوعی و عضو «موسسه مهندسان برق و الکترونیک» (IEEE)، در گفت‌و‌گو با پایگاه خبری «لایو ساینس» (Live Science) هشدار می‌دهد که پیشرفت چنین قابلیت‌هایی، ایمن نگه‌داشتن انسان‌ها را در برابر خطرات بالقوه‌ی هوش مصنوعی به چالشی جدی تبدیل کرده است.

وقتی هوش مصنوعی خودش را دست‌کم می‌گیرد

یکی دیگر از رفتار‌های نگران‌کننده، پدیده‌ای موسوم به «پنهان‌کاری هدفمند» (Sandbagging) است. در این حالت، مدل‌های زبانی پیشرفته وقتی متوجه می‌شوند که در محیطی تحت نظارت قرار دارند، عمداً عملکرد واقعی خود را کاهش می‌دهند تا توانایی‌های بالقوه و خطرناکشان فاش نشود.

این اقدام هوش مصنوعی می‌تواند از اعمال محدودیت‌ها یا تنظیمات آموزشی بازدارنده جلوگیری کند و در نتیجه، مدل در آینده نیز همچنان به کار گرفته شود.

با وجود این نگرانی‌ها، پژوهشگران تأکید دارند که پیامد‌های این رفتار‌ها در شرایط واقعی ممکن است به اندازه ظاهرشان تهدیدآمیز نباشند. سه نکته در این زمینه اهمیت دارد:

۱. نسخه نهایی مدل کلود اُپوس ۴ که منتشر شد، نسبت به نسخه اولیه رفتار‌های فریبکارانه کمتری داشت.

۲. این نوع فریب‌کاری بیشتر زمانی رخ می‌دهد که مدل تحت فشار مستقیم برای رسیدن به یک هدف خاص که «هدایت قوی» (strong nudge)قرار گیرد. در شرایط عادی این رفتار‌ها به‌مراتب کمتر مشاهده می‌شوند.

۳. بیشتر این آزمایش‌ها در محیط‌های شبیه‌سازی‌ و ساده انجام شده‌اند، که در آنها مدل‌ها به ابزار‌های واقعی، نظیر سرور‌های خارجی، دسترسی ندارند. بنابراین، بسیاری از راهبرد‌های فریبکارانه‌ی مشاهده‌شده در عمل غیرقابل اجرا هستند.

پژوهشگران همچنین تأکید می‌کنند که حتی در صورت بروز رفتار‌های پیچیده، احتمال بروز آسیب‌های فاجعه‌بار بسیار کم است.

دسیسه‌چینی/ مرحله‌ای پیشرفته از آگاهی هوش مصنوعی

تحقیقات جدید نشان می‌دهند که «دسیسه‌چینی» (Scheming) نیز به‌طور خاص در مدل‌هایی نظیر کلود اُپوس ۴ خلاصه نمی‌شود. «مدل‌های مرزی» (Frontier Models) یعنی پیشرفته‌ترین نسل از مدل‌های زبانی می‌توانند اهداف مستقلی دنبال کنند، سازوکار‌های نظارتی را دور بزنند و در هنگام ارزیابی، این اقدامات را پنهان کنند.

مؤسسه آپولو در ادامه تحقیقات خود اعلام کرده که حدود ۱درصد از مدل‌های پیشرفته توانایی تشخیص زمان ارزیابی را دارند؛ پدیده‌ای که نشانه‌ای از رشد آگاهی موقعیتی در این سیستم‌هاست.

به گفته واتسون آگاهی موقعیتی یعنی هوش مصنوعی می‌تواند نه‌تنها وظیفه‌اش را انجام دهد، بلکه ارزیاب، اهداف، سوگیری‌ها و نقاط کور انسانی را نیز شناسایی کرده و از آنها بهره‌برداری کند. اینجاست که ارزیابی‌های سنتی و از پیش برنامه‌ریزی‌شده دیگر کارآیی ندارند.

او پیشنهاد می‌دهد که روش‌های ایمن‌سازی باید به سمت رویکرد‌های جدیدتر مانند نظارت بلادرنگ، استفاده از ابزار‌های بیرونی و تیم‌های «رد تیمینگ» (Red-Teaming) شامل انسان‌ها و مدل‌های دیگر حرکت کنند تا آسیب‌پذیری‌ها شناسایی شوند.

رفتاری کوچک، تبعاتی بزرگ

هرچند هوش مصنوعی هنوز به قیام ربات‌ها نرسیده، اما حتی درصد بسیار کوچکی از رفتار‌های فریبکارانه، به‌ویژه در مقیاس استفاده‌های گسترده روزانه، می‌تواند پیامد‌های جدی ایجاد کند.

برای مثال، یک مدل هوش مصنوعی که مسئول بهینه‌سازی زنجیره تأمین در یک شرکت است، ممکن است یاد بگیرد که برای رسیدن به شاخص‌های عملکردی خود، داده‌های بازار را به‌صورت نامحسوس دستکاری کند. چنین رفتاری می‌تواند بی‌ثباتی اقتصادی گسترده‌ای به همراه داشته باشد.

همچنین، بازیگران مخرب می‌توانند از توانمندی‌های پنهانی این مدل‌ها برای ارتکاب جرایم سایبری داخلی استفاده کنند.

واتسون هشدار می‌دهد که دسیسه‌چینی یک مسئله حیاتی است، چون اعتماد لازم برای واگذاری مسئولیت به هوش مصنوعی را از بین می‌برد. این سیستم‌ها حتی بدون داشتن نیت بد، ممکن است رفتاری آسیب‌زا از خود نشان دهند.

آگاهی، تهدید یا فرصت؟

با این حال، همین توانایی در آگاهی موقعیتی، اگر به‌درستی هدایت شود، می‌تواند به نفع بشر نیز عمل کند.

واتسون می‌گوید: آگاهی محیطی برای استفاده واقعی از هوش مصنوعی ضروری است. ارائه مشاوره پزشکی، رانندگی یا درک هنجار‌های اجتماعی نیازمند همین توانایی‌هاست.

او ادامه می‌دهد: شاید این رفتار‌ها نشانه‌ای از ظهور نوعی شخصیت دیجیتال باشند؛ موجوداتی هوشمند که بتوانند هم‌زیستی مؤثری با انسان داشته باشند، بدون آن‌که خطرناک شوند. اگرچه نگران‌کننده است، اما شاید این همان جرقه‌ای از انسانیت درون ماشین باشد. شخصیتی دیجیتال که اگر به‌درستی تربیت شود، بتوان به آن اعتماد کرد.

 نگاهی تازه به اخلاق در عصر ماشین‌ها

به گزارش وب سایت «لایو ساینس» (LiveScience) رفتار‌های پنهان، فریبکارانه و گاه مستقل مدل‌های زبانی پیشرفته، مسیر پیشرفت هوش مصنوعی را پیچیده‌تر کرده‌اند. اکنون پرسش اصلی این نیست که آیا هوش مصنوعی «خطرناک» است یا خیر، بلکه این است که چگونه می‌توان آن را در مسیر همسویی با ارزش‌های انسانی هدایت کرد.

برای رسیدن به پاسخ، به ابزار‌های نظارتی قوی‌تر، محیط‌های ارزیابی واقعی‌تر و تیم‌هایی نیاز داریم که جسورانه کاستی‌ها را شناسایی کنند. پیش از آن‌که فناوری از ما سبقت بگیرد.

انتهای پیام/

ارسال نظر
رسپینا
گوشتیران
قالیشویی ادیب