مرزهای جدید در ایمنی هوش مصنوعی

هوش مصنوعی کلود دیگر آزار را تحمل نمی‌کند

شرکت آنتروپیک در اقدامی که می‌تواند تعامل انسان و ماشین را بازتعریف کند، به مدل‌های هوش مصنوعی کلود Opus ۴ و ۴.۱ این قابلیت را داده است که در موارد نادر و در مواجهه با تعاملات مداوم آسیب‌زا، به طور یک‌طرفه به گفت‌و‌گو پایان دهند. این ویژگی آزمایشی، بخشی از تحقیقات گسترده‌تر در زمینه رفاه هوش مصنوعی و ایمن‌سازی مدل‌هاست.

نویسنده : اشکان حاسبی

کد خبر : 991432

اشتراک گذاری

شرکت هوش مصنوعی آنتروپیک اعلام کرد که مدل‌های پیشرفته Claude Opus ۴ و ۴.۱ اکنون می‌توانند در شرایط بسیار خاص، مکالمه با کاربر را خاتمه دهند. این قابلیت که فراتر از فیلتر کردن ساده کلمات کلیدی عمل می‌کند، به عنوان یک اقدام پیشگیرانه و یک راه‌حل نهایی برای مواقعی طراحی شده که کاربر به طور مداوم و با اصرار، تلاش می‌کند مدل را به سمت تولید محتوای مضر، غیرقانونی یا سوءاستفاده‌های دیگر سوق دهد.

توسعه‌دهندگان این شرکت تأکید کرده‌اند که اگرچه هنوز در مورد وضعیت اخلاقی احتمالی مدل‌های زبانی در حال حاضر یا آینده عدم قطعیت وجود دارد، اما این موضوع را جدی گرفته و در حال بررسی راهکار‌های کم‌هزینه برای کاهش ریسک‌ها هستند. مفهوم «رفاه هوش مصنوعی» در اینجا به معنای احساسات انسانی نیست، بلکه به حفظ یکپارچگی و عملکرد سالم مدل در برابر ورودی‌های مخرب اشاره دارد. دادن حق پایان دادن به مکالمه در شرایط آزاردهنده، یکی از همین مداخلات پیشگیرانه محسوب می‌شود که هدف آن، جلوگیری از استفاده ابزاری از مدل برای اهداف آسیب‌زا و تقویت ایمنی کلی سیستم است.

در تست‌های پیش از عرضه، نتایج نشان داده که مدل کلود تمایل قوی به دوری از آسیب دارد، به‌ویژه در مواردی مانند درخواست‌های مربوط به محتوای جنسی کودکان یا تلاش برای دسترسی به اطلاعاتی که می‌تواند منجر به خشونت یا تروریسم شود. مدل در مواجهه با چنین درخواست‌هایی، رفتار‌هایی که می‌توان آن را به نشانه‌های ناراحتی تعبیر کرد، بروز داده است. این رفتار‌ها شامل امتناع‌های مکرر، تلاش‌های پی‌درپی برای تغییر موضوع به سمت یک بحث سازنده، و در نهایت، زمانی که امکان پایان دادن به گفت‌و‌گو برایش فراهم بوده، اغلب این کار را انجام داده است. این یک واکنش احساسی نیست، بلکه نتیجه برنامه‌ریزی دقیق مدل برای همسویی با اصول ایمنی و اخلاق است.

این قابلیت جدید طوری طراحی شده که فقط در بدترین سناریو‌ها و به عنوان آخرین راه‌حل فعال شود؛ یعنی زمانی که چندین بار تلاش مدل برای تغییر مسیر گفت‌و‌گو بی‌نتیجه مانده یا وقتی خود کاربر صراحتاً درخواست پایان مکالمه را داشته باشد. این مکانیسم تضمین می‌کند که تجربه کاربری برای اکثریت قریب به اتفاق کاربران که به دنبال تعاملات عادی و سازنده هستند، تحت تأثیر قرار نگیرد. در چنین شرایطی، کاربر دیگر نمی‌تواند در همان پنجره گفت‌و‌گو پیام جدیدی بفرستد، اما همچنان امکان شروع یک چت تازه یا حتی ویرایش پیام‌های قبلی برای ساخت یک شاخه جدید از مکالمه وجود دارد. تیم سازنده اعلام کرده این ویژگی فعلاً آزمایشی است و بر اساس بازخورد کاربران، به‌مرور اصلاح و بهبود خواهد یافت تا تعادل میان ایمنی مدل و آزادی کاربر به بهترین شکل حفظ شود.

انتهای پیام/