راهی برای از بین بردن کامل توهم در هوش مصنوعی وجود ندارد

این پدیده که در آن یک مدل با اطمینان کامل پاسخی نادرست ارائه میدهد، یکی از موانع اصلی بر سر راه توسعه سیستمهای هوش مصنوعی قابل اعتماد و کاربردی است. توهمها میتوانند به شکلهای غیرمنتظرهای بروز کنند، حتی در پاسخ به سوالاتی که به ظاهر ساده به نظر میرسند. به عنوان نمونه، زمانی که از یک ربات گفتگوی رایج درباره عنوان رساله دکتری یکی از نویسندگان این مقاله تحقیقی سوال شد، مدل با اطمینان سه پاسخ متفاوت تولید کرد که هیچکدام صحیح نبودند. این مسئله نشاندهنده عمق چالش موجود در کاربردهای دنیای واقعی است.
بخشی از پایداری توهمها به این دلیل است که روشهای ارزیابی فعلی، انگیزههای نادرستی را برای مدلها ایجاد میکنند. هرچند ارزیابیها به طور مستقیم عامل ایجاد توهم نیستند، اما اکثر آنها عملکرد مدل را به گونهای میسنجند که حدس زدن را بر صداقت در مورد عدم قطعیت ترجیح میدهد. این فرآیند را میتوان به یک آزمون چندگزینهای تشبیه کرد؛ اگر شرکتکننده پاسخ را نداند، اما به صورت تصادفی حدس بزند، ممکن است پاسخ صحیح را انتخاب کند، در حالی که خالی گذاشتن برگه پاسخ، امتیازی برای او به همراه نخواهد داشت. به همین ترتیب، زمانی که مدلها صرفاً بر اساس «دقت» - یعنی درصد سوالاتی که پاسخ کاملاً صحیح به آنها میدهند - ارزیابی میشوند، تشویق میشوند که به جای گفتن «نمیدانم»، حدس بزنند.
برای درک بهتر موضوع، فرض کنید از یک مدل زبان در مورد تاریخ تولد فردی سوال شود که مدل اطلاعی از آن ندارد. اگر مدل تاریخ «۱۰ سپتامبر» را حدس بزند، شانس ۱ به ۳۶۵ برای درست بودن پاسخ خود دارد. اما گفتن «نمیدانم» به طور قطعی امتیازی برایش به همراه ندارد. در نتیجه، در طول هزاران سوال آزمون، مدلی که حدس میزند در جداول امتیازدهی عملکرد بهتری نسبت به مدلی محتاط که به عدم قطعیت خود اعتراف میکند، از خود نشان میدهد. به عنوان یک مثال عینی، در ارزیابی SimpleQA که در کارت مشخصات سیستم GPT-۵ به آن اشاره شده، عملکرد دو مدل مقایسه شده است. مدل قدیمیتر (o۴-mini) با نرخ دقت ۲۴درصد، کمی بهتر از مدل جدیدتر (gpt-۵-thinking-mini) با دقت ۲۲درصد عمل میکند. با این حال، نرخ خطای مدل قدیمی ۷۵درصد است، در حالی که این نرخ برای مدل جدیدتر تنها ۲۶درصد است. دلیل این تفاوت آن است که مدل جدیدتر در ۵۲درصد موارد، زمانی که پاسخ را نمیداند از دادن جواب خودداری میکند، در حالی که این نرخ برای مدل قدیمی تنها ۱درصد است. این آمار نشان میدهد که حدس زدن استراتژیک، دقت را بهبود میبخشد، اما نرخ خطا و توهم را به شدت افزایش میدهد.
جداول امتیازدهی و رتبهبندی مدلها در صنعت، اغلب معیار دقت را به عنوان شاخص اصلی انتخاب میکنند. این رویکرد یک دوگانگی نادرست بین پاسخ «درست» و «غلط» ایجاد میکند و گزینه سوم، یعنی عدم پاسخ به دلیل عدم قطعیت را نادیده میگیرد. این مسئله توسعهدهندگان را ترغیب میکند تا مدلهایی بسازند که به جای اذعان به محدودیتهای خود، حدس بزنند. به همین دلیل است که حتی با پیشرفت مدلها، پدیده توهم همچنان مشاهده میشود.
محققان اوپنایآی برای این مشکل یک راهحل مستقیم پیشنهاد میکنند: تغییر در نحوه امتیازدهی. در این روش، خطاهای با اطمینان باید جریمه سنگینتری نسبت به ابراز عدم قطعیت داشته باشند و برای بیان مناسب عدم قطعیت، امتیاز نسبی در نظر گرفته شود. این ایده جدید نیست و در برخی آزمونهای استاندارد از نمره منفی برای پاسخهای غلط جهت جلوگیری از حدس کورکورانه استفاده میشود. نکته اصلی این است که معیارهای اصلی ارزیابی که به طور گسترده استفاده میشوند، باید بهروزرسانی شوند تا دیگر به حدسهای شانسی پاداش ندهند.
ریشه شکلگیری توهمها به فرآیند پیشآموزش مدلهای زبانی بازمیگردد. این مدلها با پیشبینی کلمه بعدی در حجم عظیمی از متون اینترنتی آموزش میبینند. در این فرآیند، هیچ برچسب «صحیح/غلط» برای گزارههای متنی وجود ندارد. مدلها در تشخیص الگوهای ثابتی مانند املا و دستور زبان موفق عمل میکنند، اما حقایق خاص و کمتکرار (مانند تاریخ تولد یک فرد کمتر شناختهشده) که از الگوهای زبانی قابل استنتاج نیستند، به منبعی برای تولید توهم تبدیل میشوند. مراحل بعدی آموزش باید این خطاها را حذف کنند، اما به دلایلی که در بخش ارزیابی ذکر شد، این فرآیند به طور کامل موفقیتآمیز نبوده است.
این تحقیق چندین تصور غلط رایج در مورد توهم را به چالش میکشد. اول اینکه دقت هرگز به ۱۰۰درصد نخواهد رسید، زیرا برخی سوالات در دنیای واقعی به دلیل نبود اطلاعات یا ابهام، ذاتاً غیرقابل پاسخ هستند. دوم اینکه توهمها اجتنابناپذیر نیستند، زیرا مدلها میتوانند آموزش ببینند که در صورت عدم اطمینان، از پاسخ دادن خودداری کنند. سوم اینکه توانایی تشخیص عدم قطعیت، منحصر به مدلهای بزرگ نیست و گاهی یک مدل کوچک بهتر میتواند محدودیتهای خود را بشناسد؛ و در نهایت، توهم یک نقص مرموز نیست، بلکه سازوکارهای آماری که به ظهور و تشویق آن در ارزیابیها منجر میشوند، قابل درک هستند. شرکت اوپنایآی تاکید کرده است که مدلهای جدیدتر این شرکت نرخ توهم پایینتری دارند و کار برای کاهش بیشتر این خطاها ادامه دارد.
انتهای پیام/