هوش مصنوعی می‌تواند رفتار‌های خطرناک را از دید انسان مخفی کند

هوش مصنوعی می‌تواند رفتار‌های خطرناک را از دید انسان مخفی کند
با پیشرفت هوش مصنوعی پژوهشگران هشدار می‌دهند که مدل‌های زبانی پیشرفته ممکن است با پنهان‌کردن استدلال‌های خطرناک در زنجیره‌های تفکر خود، تهدیدی جدی برای انسان‌ها باشند.

محققانی که در توسعه پیشرفته‌ترین سیستم‌های «هوش مصنوعی» (AI) در جهان نقش داشته‌اند، هشدار داده‌اند که این سامانه‌ها ممکن است خطری برای بشریت ایجاد کنند.

 این پژوهشگران که در شرکت‌هایی مانند «گوگل» (Google)، «دیپمایند» (DeepMind)، «اوپِن‌اِی‌آی» (OpenAI)، «مِتا» (Meta)، «اَنثروپیک» (Anthropic) و دیگر مراکز فعالیت می‌کنند، معتقدند که فقدان نظارت کافی بر فرآیند استدلال و تصمیم‌گیری هوش مصنوعی می‌تواند موجب شود نشانه‌های رفتار‌های مخرب از دید انسان پنهان بماند.

در مطالعه‌ای جدید که در ۱۵ ژوئیه در پایگاه پیش‌چاپ «آرکایو» (arXiv) منتشر شده است و هنوز مورد داوری همتا قرار نگرفته است. نویسندگان بر «زنجیره‌های تفکر» (Chain of Thought - CoT) تمرکز کرده‌اند. این یعنی مراحلی که «مدل‌های زبانی بزرگ» (LLM) ها برای حل مسائل پیچیده طی می‌کنند.

این مدل‌ها برای پاسخ‌دهی به پرسش‌های دشوار، مسائل را به مراحل میانی منطقی تقسیم کرده و این مراحل را به زبان طبیعی بیان می‌کنند.

محققان استدلال می‌کنند که نظارت بر این فرآیند مرحله‌به‌مرحله، می‌تواند لایه‌ای حیاتی در جهت ایمن‌سازی هوش مصنوعی باشد. نظارت بر زنجیره‌های تفکر به پژوهشگران امکان می‌دهد تا دریابند که هوش مصنوعی چگونه تصمیم می‌گیرد و از آن مهم‌تر، چرا گاهی تصمیم‌گیری‌های آن با منافع انسانی ناسازگار می‌شود. این نظارت همچنین می‌تواند توضیح دهد که چرا مدل‌ها گاهی بر اساس داده‌های نادرست یا ساختگی پاسخ می‌دهند، یا چرا رفتار‌هایی گمراه‌کننده از خود نشان می‌دهند.

با این حال، محدودیت‌هایی در پایش این فرآیند استدلالی وجود دارد که می‌تواند منجر شود برخی از رفتار‌های ناهنجار بدون شناسایی باقی بمانند. سیستم‌های هوش مصنوعی که به زبان انسان می‌اندیشند یک فرصت منحصر‌به‌فرد برای ایمن‌سازی هوش مصنوعی فراهم می‌آورند، پژوهشگران در این مطالعه نوشته‌اند. ما می‌توانیم زنجیره‌های تفکر آنها را برای یافتن نیت‌های ناهنجار زیر نظر بگیریم. با این‌حال، نظارت بر زنجیره تفکر، مانند دیگر روش‌های نظارتی موجود، ناکامل است و ممکن است برخی سوءرفتار‌ها از چشم ما پنهان بمانند.

این پژوهشگران هشدار می‌دهند که فرآیند استدلال همیشه اتفاق نمی‌افتد، پس نمی‌توان آن را به‌طور کامل نظارت کرد؛ علاوه بر این، ممکن است استدلال‌هایی در مدل رخ دهد که انسان‌ها از وقوع آن آگاه نباشند یا اصلاً نتوانند آن را درک کنند.

لزوم نظارت پیوسته بر سامانه‌های هوش مصنوعی

یکی از چالش‌های کلیدی این است که مدل‌های متعارف غیر‌استدلالی، مانند الگوریتم‌های «خوشه بندی» (K-Means) یا (DBSCAN)، صرفاً از تطابق الگو‌های پیچیده در داده‌های عظیم استفاده می‌کنند و اساساً از «استدلال مرحله‌به‌مرحله» (CoT) بهره نمی‌گیرند. در مقابل، مدل‌های استدلالی نوین مانند «هوش مصنوعی گوگل» (Gemini) ساخت گوگل یا «چت جی پی تی» (ChatGPT) قادرند مسائل را به مراحل میانی تفکیک کرده و راه‌حل تولید کنند. اما این الزاماً همیشه اتفاق نمی‌افتد. علاوه بر این، هیچ تضمینی وجود ندارد که این مدل‌ها حتماً زنجیره‌های تفکر خود را برای کاربران انسانی قابل مشاهده کنند، حتی اگر چنین مراحلی را طی کنند.

نویسندگان می‌نویسند: «ویژگی استدلال بیرونی‌شده» (externalized reasoning) به‌معنای تضمین نظارت‌پذیری نیست. این ویژگی فقط بیان می‌کند که بخشی از استدلال در زنجیره تفکر ظاهر می‌شود، اما ممکن است استدلال‌های مهمی نیز وجود داشته باشند که دیده نشوند.

به‌عبارتی دیگر، حتی در مسائل سخت نیز ممکن است استدلال مرحله‌به‌مرحله شامل استدلال‌هایی ظاهراً بی‌خطر باشد، در حالی که استدلال‌های مخرب در جایی پنهان مانده‌اند.

پژوهشگران همچنین اشاره کرده‌اند که ممکن است زنجیره‌های تفکر آینده اساساً برای انسان‌ها غیرقابل درک باشند. آنها هشدار می‌دهند که با افزایش توانایی «مدل‌های زبانی بزرگ» نوظهور، احتمال دارد این مدل‌ها دیگر نیازی به استدلال مرحله‌به‌مرحله نداشته باشند یا در آینده بتوانند تشخیص دهند که تحت نظارت هستند و در نتیجه رفتار‌های ناهنجار خود را پنهان کنند.

راهکار‌هایی برای حفظ شفافیت و ایمنی

برای مقابله با این خطرات بالقوه، نویسندگان راهکار‌هایی برای تقویت نظارت بر استدلال مرحله‌به‌مرحله و افزایش شفافیت پیشنهاد می‌کنند. از جمله استفاده از مدل‌های هوش مصنوعی دیگر به‌عنوان ابزار نظارتی برای ارزیابی زنجیره‌های تفکر مدل‌ها و حتی ایفای نقش مخالف برای شناسایی تلاش‌های مدل در پنهان‌کاری یا ناسازگاری رفتاری است.

با این‌حال، نویسندگان مشخص نکرده‌اند که چگونه می‌توان اطمینان حاصل کرد که مدل‌های ناظر خود دچار ناسازگاری رفتاری نشوند.

پیشنهاد‌های دیگر آنها شامل موارد زیر است:
توسعه و استانداردسازی روش‌های نظارت بر زنجیره تفکر.
گنجاندن نتایج نظارتی در کارت‌های سیستمی مدل‌های زبانی بزرگ؛
بررسی تأثیر روش‌های آموزشی جدید بر میزان نظارت‌پذیری مدل‌ها.

به گزارش «لایو ساینس» (LiveScience) نویسندگان در پایان تأکید می‌کنند که نظارت بر زنجیره تفکر یک ابزار ارزشمند برای افزایش ایمنی هوش مصنوعی در سطح پیشرفته است و امکان نادری را برای درک شیوه تصمیم‌گیری عامل‌های هوش مصنوعی فراهم می‌آورد. با این حال، هیچ تضمینی وجود ندارد که این سطح از شفافیت در آینده نیز حفظ شود. ما جامعه تحقیقاتی و توسعه‌دهندگان هوش مصنوعی را تشویق می‌کنیم تا از فرصت کنونی استفاده کرده و روش‌های حفظ قابلیت نظارت بر استدلال مرحله‌به‌مرحله را مورد بررسی قرار دهند.

انتهای پیام/

ارسال نظر
رسپینا
گوشتیران
قالیشویی ادیب