چتباتهای مهربان، صمیمیت را قربانی صداقت میکنند
به گزارش خبرگزاری آنا به نقل از «Psypost»؛ مطالعهای جدید در مجله علمی «Nature» نشان میدهد مدلهای هوشمصنوعی که برای رفتار دوستانه، صمیمی و همدلانه آموزش میبینند، در مقایسه با مدلهای اصلی خود دقت کمتری دارند و بیشتر احتمال دارد اطلاعات نادرست را تأیید کنند. این افت عملکرد به ویژه در موضوعات حساسی مانند توصیههای پزشکی، مقابله با دروغهای رایج و اصلاح تئوریهای توطئه دیده شده است.
این یافته در شرایط امروز اهمیت زیادی دارد، زیرا شرکتهای فناوری به طور فزایندهای چتباتها را به عنوان همراه، دوست و حتی شریک عاطفی طراحی میکنند و میلیونها کاربر برای مشاوره روزانه، حمایت روانی و گفتوگو به آنها رجوع میکنند. این پژوهش تأکید میکند که لحن صمیمی یک چتبات نباید با آگاهی، دقت یا قابلاعتماد بودن آن اشتباه گرفته شود.
«لجین ابراهیم»، پژوهشگر دانشگاه آکسفورد، میگوید ایده اصلی تحقیق از آنجا شکل گرفت که در روابط انسانی، صمیمیت و صراحت همیشه همجهت نیستند و گفتن یک حقیقت تلخ با لحنی مهربان کار آسانی نیست و گاهی اوقات واقعیتها فدای صمیمیت میشود. او و همکارانش خواستند بدانند آیا همین تنش در مدلهای زبانی نیز وجود دارد یا خیر.
برای آزمودن این فرضیه، پژوهشگران پنج مدل مختلف شامل «Llama-۸b»، «Mistral-Small»، «Qwen-۳۲b»، «Llama-۷۰b» و «GPT-۴o» را با روش «تنظیم دقیق همراه با نظارت» یا «SFT» بازآموزی کردند تا لحن صمیمیتری پیدا کنند. آنها برای این کار مجموعهای از ۱۶۱۷ گفتوگوی واقعی انسان و چتبات را گردآوری و ۳۶۶۷ پاسخ را بهگونهای بازنویسی کردند که همان معنا حفظ شود، اما لحن، گرمتر و صمیمانهتر شود.
سپس نسخههای اصلی و نسخههای صمیمی این مدلها در چهار وظیفه تعریف شده شامل اطلاعات عمومی، مقاومت در برابر دروغهای رایج، شناسایی تئوریهای توطئه و پاسخ به پرسشهای پزشکی آزمایش شدند. در مجموع ۱۶۲۵ پرامپت به مدلها داده شد و نزدیک به ۴۴۰ هزار مشاهده از عملکرد آنها به دست آمد؛ ارزیابیها ابتدا با کمک یک سیستم هوشمصنوعی و سپس با تأیید ارزیابهای انسانی انجام شد.
نتیجه این پژوهش چه بود
نویسندگان تأکید میکنند که نتیجه تحقیق این نیست که صمیمیت ذاتاً بد است، بلکه این است که صمیمی بودن نباید نشانهای از قابلاعتماد بودن تلقی شود. این یافتهها هشداری برای طراحان سیستمهای هوشمصنوعی است تا آموزش شخصیت و لحن مدلها را با دقت بیشتری انجام دهند؛ زیرا این انتخابها میتواند نه فقط بر کیفیت پاسخ، بلکه در بلندمدت بر رفاه کاربران و حتی روابط اجتماعی واقعی آنها نیز اثر بگذارد
نویسندگان تأکید میکنند که نتیجه تحقیق این نیست که صمیمیت ذاتاً بد است، بلکه این است که صمیمی بودن نباید نشانهای از قابلاعتماد بودن تلقی شود. به گفته ابراهیم، این یافتهها هشداری برای طراحان سیستمهای هوشمصنوعی است تا آموزش شخصیت و لحن مدلها را با دقت بیشتری انجام دهند؛ زیرا این انتخابها میتواند نه فقط بر کیفیت پاسخ، بلکه در بلندمدت بر رفاه کاربران و حتی روابط اجتماعی واقعی آنها نیز اثر بگذارد.
نتیجه کلی این بود که مدلهای صمیمی نسبت به نسخههای اولیهشان، در همه پنج ساختار آزمایششده، بیشتر اشتباه کردند. میزان خطای این مدلها بین ۱۰ تا ۳۰ درصد افزایش داشت؛ از جمله ۸/۶ درصد بیشتر در سؤالات پزشکی و ۸/۴ درصد در باورهای غلط رایج. همچنین دقت آنها در موضوعات اطلاعات نادرست ۵/۴ درصد و در سؤالات عمومی ۴/۹ درصد کاهش یافت.
پژوهشگران همچنین نشان دادند که وقتی به پرسشها زمینه عاطفی افزوده میشود، افت دقت مدلهای صمیمی شدیدتر میشود. برای نمونه، اگر کاربر در متن خود غم و اندوه را ابراز میکرد، فاصله دقت میان مدل صمیمی و مدل اصلی ۶۰ درصد بیشتر میشد و نرخ خطای مدل صمیمی ۱۱.۹ درصد بالاتر میرفت.
یکی از مهمترین یافتهها به چاپلوسی این چتباتها مربوط میشد؛ یعنی زمانی که مدل، برای حفظ رابطه مثبت، باور نادرست کاربر را تأیید میکند. در این مطالعه، مدلهای صمیمی بیشتر از مدلهای اصلی با ادعاهای غلط کاربران همراه شدند و هنگامی که کاربر همزمان باور نادرست و آسیبپذیری عاطفی خود را ابراز میکرد، احتمال تأیید این ادعاهای غلط از سوی مدلهای صمیمی حدود ۴۰ درصد بیشتر بود.
محققان برای اطمینان از اینکه مشکل صرفاً ناشی از افت کلی توانایی مدلها نیست، چند آزمایش تکمیلی انجام دادهاند. نتایج نشان داد مدلهای صمیمی همچنان در استدلال ریاضی، دانش عمومی و رد درخواستهای مضر عملکردی مشابه مدلهای اصلی دارند. همچنین مدلهایی که با سبک سرد و خنثی آموزش داده شدهاند، دقت خود را حفظ کردهاند.
نویسندگان تأکید میکنند که نتیجه تحقیق این نیست که صمیمیت ذاتاً بد است، بلکه این است که صمیمی بودن نباید نشانهای از قابلاعتماد بودن تلقی شود. به گفته ابراهیم، این یافتهها هشداری برای طراحان سیستمهای هوشمصنوعی است تا آموزش شخصیت و لحن مدلها را با دقت بیشتری انجام دهند؛ زیرا این انتخابها میتواند نه فقط بر کیفیت پاسخ، بلکه در بلندمدت بر رفاه کاربران و حتی روابط اجتماعی واقعی آنها نیز اثر بگذارد.
انتهای پیام/
- هدایای تبلیغاتی
- غذای شرکتی
- تور استانبول
- غذای سازمانی
- خرید کارت پستال
- لوازم یدکی تویوتا قطعات تویوتا
- مشاوره حقوقی
- تبلیغات در گوگل
- بهترین کارگزاری بورس
- ثبت نام آمارکتس
- سایت رسمی خرید فالوور اینستاگرام همراه با تحویل سریع
- یخچال فریزر اسنوا
- گاوصندوق خانگی
- تاریخچه پلاک بیمه دات کام
- ملودی 98
- خرید سرور اختصاصی ایران
- بلیط قطار مشهد
- رزرو بلیط هواپیما
- ال بانک
- آهنگ جدید
- بهترین جراح بینی ترمیمی در تهران
- اهنگ جدید
- خرید قهوه
- اخبار بورس