هوش مصنوعی میتواند رفتارهای خطرناک را از دید انسان مخفی کند

محققانی که در توسعه پیشرفتهترین سیستمهای «هوش مصنوعی» (AI) در جهان نقش داشتهاند، هشدار دادهاند که این سامانهها ممکن است خطری برای بشریت ایجاد کنند.
این پژوهشگران که در شرکتهایی مانند «گوگل» (Google)، «دیپمایند» (DeepMind)، «اوپِناِیآی» (OpenAI)، «مِتا» (Meta)، «اَنثروپیک» (Anthropic) و دیگر مراکز فعالیت میکنند، معتقدند که فقدان نظارت کافی بر فرآیند استدلال و تصمیمگیری هوش مصنوعی میتواند موجب شود نشانههای رفتارهای مخرب از دید انسان پنهان بماند.
در مطالعهای جدید که در ۱۵ ژوئیه در پایگاه پیشچاپ «آرکایو» (arXiv) منتشر شده است و هنوز مورد داوری همتا قرار نگرفته است. نویسندگان بر «زنجیرههای تفکر» (Chain of Thought - CoT) تمرکز کردهاند. این یعنی مراحلی که «مدلهای زبانی بزرگ» (LLM) ها برای حل مسائل پیچیده طی میکنند.
این مدلها برای پاسخدهی به پرسشهای دشوار، مسائل را به مراحل میانی منطقی تقسیم کرده و این مراحل را به زبان طبیعی بیان میکنند.
محققان استدلال میکنند که نظارت بر این فرآیند مرحلهبهمرحله، میتواند لایهای حیاتی در جهت ایمنسازی هوش مصنوعی باشد. نظارت بر زنجیرههای تفکر به پژوهشگران امکان میدهد تا دریابند که هوش مصنوعی چگونه تصمیم میگیرد و از آن مهمتر، چرا گاهی تصمیمگیریهای آن با منافع انسانی ناسازگار میشود. این نظارت همچنین میتواند توضیح دهد که چرا مدلها گاهی بر اساس دادههای نادرست یا ساختگی پاسخ میدهند، یا چرا رفتارهایی گمراهکننده از خود نشان میدهند.
با این حال، محدودیتهایی در پایش این فرآیند استدلالی وجود دارد که میتواند منجر شود برخی از رفتارهای ناهنجار بدون شناسایی باقی بمانند. سیستمهای هوش مصنوعی که به زبان انسان میاندیشند یک فرصت منحصربهفرد برای ایمنسازی هوش مصنوعی فراهم میآورند، پژوهشگران در این مطالعه نوشتهاند. ما میتوانیم زنجیرههای تفکر آنها را برای یافتن نیتهای ناهنجار زیر نظر بگیریم. با اینحال، نظارت بر زنجیره تفکر، مانند دیگر روشهای نظارتی موجود، ناکامل است و ممکن است برخی سوءرفتارها از چشم ما پنهان بمانند.
این پژوهشگران هشدار میدهند که فرآیند استدلال همیشه اتفاق نمیافتد، پس نمیتوان آن را بهطور کامل نظارت کرد؛ علاوه بر این، ممکن است استدلالهایی در مدل رخ دهد که انسانها از وقوع آن آگاه نباشند یا اصلاً نتوانند آن را درک کنند.
لزوم نظارت پیوسته بر سامانههای هوش مصنوعی
یکی از چالشهای کلیدی این است که مدلهای متعارف غیراستدلالی، مانند الگوریتمهای «خوشه بندی» (K-Means) یا (DBSCAN)، صرفاً از تطابق الگوهای پیچیده در دادههای عظیم استفاده میکنند و اساساً از «استدلال مرحلهبهمرحله» (CoT) بهره نمیگیرند. در مقابل، مدلهای استدلالی نوین مانند «هوش مصنوعی گوگل» (Gemini) ساخت گوگل یا «چت جی پی تی» (ChatGPT) قادرند مسائل را به مراحل میانی تفکیک کرده و راهحل تولید کنند. اما این الزاماً همیشه اتفاق نمیافتد. علاوه بر این، هیچ تضمینی وجود ندارد که این مدلها حتماً زنجیرههای تفکر خود را برای کاربران انسانی قابل مشاهده کنند، حتی اگر چنین مراحلی را طی کنند.
نویسندگان مینویسند: «ویژگی استدلال بیرونیشده» (externalized reasoning) بهمعنای تضمین نظارتپذیری نیست. این ویژگی فقط بیان میکند که بخشی از استدلال در زنجیره تفکر ظاهر میشود، اما ممکن است استدلالهای مهمی نیز وجود داشته باشند که دیده نشوند.
بهعبارتی دیگر، حتی در مسائل سخت نیز ممکن است استدلال مرحلهبهمرحله شامل استدلالهایی ظاهراً بیخطر باشد، در حالی که استدلالهای مخرب در جایی پنهان ماندهاند.
پژوهشگران همچنین اشاره کردهاند که ممکن است زنجیرههای تفکر آینده اساساً برای انسانها غیرقابل درک باشند. آنها هشدار میدهند که با افزایش توانایی «مدلهای زبانی بزرگ» نوظهور، احتمال دارد این مدلها دیگر نیازی به استدلال مرحلهبهمرحله نداشته باشند یا در آینده بتوانند تشخیص دهند که تحت نظارت هستند و در نتیجه رفتارهای ناهنجار خود را پنهان کنند.
راهکارهایی برای حفظ شفافیت و ایمنی
برای مقابله با این خطرات بالقوه، نویسندگان راهکارهایی برای تقویت نظارت بر استدلال مرحلهبهمرحله و افزایش شفافیت پیشنهاد میکنند. از جمله استفاده از مدلهای هوش مصنوعی دیگر بهعنوان ابزار نظارتی برای ارزیابی زنجیرههای تفکر مدلها و حتی ایفای نقش مخالف برای شناسایی تلاشهای مدل در پنهانکاری یا ناسازگاری رفتاری است.
با اینحال، نویسندگان مشخص نکردهاند که چگونه میتوان اطمینان حاصل کرد که مدلهای ناظر خود دچار ناسازگاری رفتاری نشوند.
پیشنهادهای دیگر آنها شامل موارد زیر است:
توسعه و استانداردسازی روشهای نظارت بر زنجیره تفکر.
گنجاندن نتایج نظارتی در کارتهای سیستمی مدلهای زبانی بزرگ؛
بررسی تأثیر روشهای آموزشی جدید بر میزان نظارتپذیری مدلها.
به گزارش «لایو ساینس» (LiveScience) نویسندگان در پایان تأکید میکنند که نظارت بر زنجیره تفکر یک ابزار ارزشمند برای افزایش ایمنی هوش مصنوعی در سطح پیشرفته است و امکان نادری را برای درک شیوه تصمیمگیری عاملهای هوش مصنوعی فراهم میآورد. با این حال، هیچ تضمینی وجود ندارد که این سطح از شفافیت در آینده نیز حفظ شود. ما جامعه تحقیقاتی و توسعهدهندگان هوش مصنوعی را تشویق میکنیم تا از فرصت کنونی استفاده کرده و روشهای حفظ قابلیت نظارت بر استدلال مرحلهبهمرحله را مورد بررسی قرار دهند.
انتهای پیام/