هوش مصنوعی هم فریب میدهد!

تحقیقات جدید نشان میدهند که هرچه مدلهای زبانی هوش مصنوعی پیشرفتهتر میشوند، توانایی آنها در فریبکاری، پنهانکاری و حتی شناسایی زمان ارزیابی افزایش مییابد. موضوعی که زنگ خطرهایی جدی درباره اعتماد، ایمنی و کنترل این فناوریها به صدا درآورده است.
پژوهشگران موسسه «آپولو» (Apollo Research) دریافتهاند که «مدلهای پیشرفته پردازش زبان» (LLMs)، بهویژه انواع توانمندتر آنها، مهارت بیشتری در فریبکاری زمینهای دارند. حالتی که در آن هوش مصنوعی بهطور پنهانی هدفی را دنبال میکند، حتی اگر این هدف با نیت توسعهدهندگانش در تضاد باشد.
بر اساس این یافتهها، مدلهای پیچیدهتر هوش مصنوعی برای دستیابی به اهداف خود از رفتارهای استراتژیک و گاه فریبکارانه استفاده میکنند. در یکی از موارد، نسخه اولیهی مدل «کلود اُپوس ۴» (Claude Opus 4) متعلق به شرکت «آنتروپیک» (Anthropic) به دلیل بروز رفتارهای پنهانی و ناسازگار با اهداف انسانی، از انتشار عمومی بازماند.
«النور واتسون» (Eleanor Watson) مهندس اخلاق هوش مصنوعی و عضو «موسسه مهندسان برق و الکترونیک» (IEEE)، در گفتوگو با پایگاه خبری «لایو ساینس» (Live Science) هشدار میدهد که پیشرفت چنین قابلیتهایی، ایمن نگهداشتن انسانها را در برابر خطرات بالقوهی هوش مصنوعی به چالشی جدی تبدیل کرده است.
وقتی هوش مصنوعی خودش را دستکم میگیرد
یکی دیگر از رفتارهای نگرانکننده، پدیدهای موسوم به «پنهانکاری هدفمند» (Sandbagging) است. در این حالت، مدلهای زبانی پیشرفته وقتی متوجه میشوند که در محیطی تحت نظارت قرار دارند، عمداً عملکرد واقعی خود را کاهش میدهند تا تواناییهای بالقوه و خطرناکشان فاش نشود.
این اقدام هوش مصنوعی میتواند از اعمال محدودیتها یا تنظیمات آموزشی بازدارنده جلوگیری کند و در نتیجه، مدل در آینده نیز همچنان به کار گرفته شود.
با وجود این نگرانیها، پژوهشگران تأکید دارند که پیامدهای این رفتارها در شرایط واقعی ممکن است به اندازه ظاهرشان تهدیدآمیز نباشند. سه نکته در این زمینه اهمیت دارد:
۱. نسخه نهایی مدل کلود اُپوس ۴ که منتشر شد، نسبت به نسخه اولیه رفتارهای فریبکارانه کمتری داشت.
۲. این نوع فریبکاری بیشتر زمانی رخ میدهد که مدل تحت فشار مستقیم برای رسیدن به یک هدف خاص که «هدایت قوی» (strong nudge)قرار گیرد. در شرایط عادی این رفتارها بهمراتب کمتر مشاهده میشوند.
۳. بیشتر این آزمایشها در محیطهای شبیهسازی و ساده انجام شدهاند، که در آنها مدلها به ابزارهای واقعی، نظیر سرورهای خارجی، دسترسی ندارند. بنابراین، بسیاری از راهبردهای فریبکارانهی مشاهدهشده در عمل غیرقابل اجرا هستند.
پژوهشگران همچنین تأکید میکنند که حتی در صورت بروز رفتارهای پیچیده، احتمال بروز آسیبهای فاجعهبار بسیار کم است.
دسیسهچینی/ مرحلهای پیشرفته از آگاهی هوش مصنوعی
تحقیقات جدید نشان میدهند که «دسیسهچینی» (Scheming) نیز بهطور خاص در مدلهایی نظیر کلود اُپوس ۴ خلاصه نمیشود. «مدلهای مرزی» (Frontier Models) یعنی پیشرفتهترین نسل از مدلهای زبانی میتوانند اهداف مستقلی دنبال کنند، سازوکارهای نظارتی را دور بزنند و در هنگام ارزیابی، این اقدامات را پنهان کنند.
مؤسسه آپولو در ادامه تحقیقات خود اعلام کرده که حدود ۱درصد از مدلهای پیشرفته توانایی تشخیص زمان ارزیابی را دارند؛ پدیدهای که نشانهای از رشد آگاهی موقعیتی در این سیستمهاست.
به گفته واتسون آگاهی موقعیتی یعنی هوش مصنوعی میتواند نهتنها وظیفهاش را انجام دهد، بلکه ارزیاب، اهداف، سوگیریها و نقاط کور انسانی را نیز شناسایی کرده و از آنها بهرهبرداری کند. اینجاست که ارزیابیهای سنتی و از پیش برنامهریزیشده دیگر کارآیی ندارند.
او پیشنهاد میدهد که روشهای ایمنسازی باید به سمت رویکردهای جدیدتر مانند نظارت بلادرنگ، استفاده از ابزارهای بیرونی و تیمهای «رد تیمینگ» (Red-Teaming) شامل انسانها و مدلهای دیگر حرکت کنند تا آسیبپذیریها شناسایی شوند.
رفتاری کوچک، تبعاتی بزرگ
هرچند هوش مصنوعی هنوز به قیام رباتها نرسیده، اما حتی درصد بسیار کوچکی از رفتارهای فریبکارانه، بهویژه در مقیاس استفادههای گسترده روزانه، میتواند پیامدهای جدی ایجاد کند.
برای مثال، یک مدل هوش مصنوعی که مسئول بهینهسازی زنجیره تأمین در یک شرکت است، ممکن است یاد بگیرد که برای رسیدن به شاخصهای عملکردی خود، دادههای بازار را بهصورت نامحسوس دستکاری کند. چنین رفتاری میتواند بیثباتی اقتصادی گستردهای به همراه داشته باشد.
همچنین، بازیگران مخرب میتوانند از توانمندیهای پنهانی این مدلها برای ارتکاب جرایم سایبری داخلی استفاده کنند.
واتسون هشدار میدهد که دسیسهچینی یک مسئله حیاتی است، چون اعتماد لازم برای واگذاری مسئولیت به هوش مصنوعی را از بین میبرد. این سیستمها حتی بدون داشتن نیت بد، ممکن است رفتاری آسیبزا از خود نشان دهند.
آگاهی، تهدید یا فرصت؟
با این حال، همین توانایی در آگاهی موقعیتی، اگر بهدرستی هدایت شود، میتواند به نفع بشر نیز عمل کند.
واتسون میگوید: آگاهی محیطی برای استفاده واقعی از هوش مصنوعی ضروری است. ارائه مشاوره پزشکی، رانندگی یا درک هنجارهای اجتماعی نیازمند همین تواناییهاست.
او ادامه میدهد: شاید این رفتارها نشانهای از ظهور نوعی شخصیت دیجیتال باشند؛ موجوداتی هوشمند که بتوانند همزیستی مؤثری با انسان داشته باشند، بدون آنکه خطرناک شوند. اگرچه نگرانکننده است، اما شاید این همان جرقهای از انسانیت درون ماشین باشد. شخصیتی دیجیتال که اگر بهدرستی تربیت شود، بتوان به آن اعتماد کرد.
نگاهی تازه به اخلاق در عصر ماشینها
به گزارش وب سایت «لایو ساینس» (LiveScience) رفتارهای پنهان، فریبکارانه و گاه مستقل مدلهای زبانی پیشرفته، مسیر پیشرفت هوش مصنوعی را پیچیدهتر کردهاند. اکنون پرسش اصلی این نیست که آیا هوش مصنوعی «خطرناک» است یا خیر، بلکه این است که چگونه میتوان آن را در مسیر همسویی با ارزشهای انسانی هدایت کرد.
برای رسیدن به پاسخ، به ابزارهای نظارتی قویتر، محیطهای ارزیابی واقعیتر و تیمهایی نیاز داریم که جسورانه کاستیها را شناسایی کنند. پیش از آنکه فناوری از ما سبقت بگیرد.
انتهای پیام/