بهترین مدلهای هوش مصنوعی هم به کمک انسان نیاز دارند

همزمان با شدت گرفتن گمانهزنیها پیرامون امکان جایگزینی کامل نیروی انسانی با هوش مصنوعی در کسبوکارها، نتایج تازهترین پژوهش دانشگاه کارنگی ملون (Carnegie Mellon University) موج تازهای از تردیدها را در این عرصه به وجود آورده است. این گروه پژوهشی با هدایت دکتر آنجا کاپوسکا و همکارانش، پلتفرمی جدید به نام TheAgentCompany را توسعه دادهاند که هدف آن آزمودن عمق کارایی ایجنتهای هوش مصنوعی در فضای شبیهسازیشده یک شرکت واقعی، خارج از شرایط کنترلشده آزمایشگاهی است.
در شرایطی که عمده پژوهشهای پیشین محدود به تستهای بسیار هدایتشده یا سناریوهای ساده بوده است، این پروژه در صدد بازسازی محیط واقعی شرکتی مدرن در حوزه توسعه نرمافزار برآمده است: کاربران هوش مصنوعی باید همانند یک کارمند واقعی در رویارویی با چالشها، فعالیتهای سیستمی، تبادل اطلاعات و تعامل با سایر بخشها وظایف خود را پیش ببرند. در این سناریو، ابزارهای پرکاربرد سازمانی نظیر GitLab برای مدیریت مخزنهای کد، ownCloud برای ذخیره و بهاشتراکگذاری فایلها، RocketChat بهعنوان پیامرسان سازمانی و Plane برای مدیریت پروژه، به صورت کاملاً واقعی و عملیاتی پیادهسازی شده است.
در گام بعدی، وظایف کاملاً واقعگرایانه - مدیریت پروژه، توسعه نرمافزار و امور مهندسی گرفته تا فرآیندهای مربوط به منابع انسانی و ثبت اسناد مالی - برای این ایجنتها تعریف شد و آنها میبایست بدون هیچگونه کمکی از انسان، همه مراحل را پیش ببرند. ۱۱ مدل هوش مصنوعی از معتبرترین و پیشرفتهترین نمونههای جهان از جمله Claude ۳.۵ محصول Anthropic ،ChatGPT-۴o شرکت OpenAI ،Gemini از گوگل، Amazon Nova و مدلهای متنباز شاخص مانند Llama و Qwen در این آزمون شرکت داده شدند. هر مدل با ۱۷۵ تسک اختصاصی روبهرو شد که دامنهای گسترده از وظایف رایج محیطهای کاری واقعی را دربر میگرفت.
بزرگترین مانع پیشروی ایجنتها، ناتوانی در تشخیص لحظاتی است که دانش یا مهارت کافی را ندارند و باید از یک انسان کمک بگیرند. این مدلها در حالیکه از اعتماد به نفس بالایی برای انجام وظایف خود برخوردار هستند، حتی در صورت ناکامی هم به ندرت درخواست راهنمایی یا بازخورد میکنند
یافتههای این آزمایش واقعگرایانه خالی از شگفتی نبود: برترین مدل یعنی Claude ۳.۵ در حالی بهترین عملکرد را ثبت کرد که تنها موفق به تکمیل ۲۴ درصد کل وظایف شد. این در حالی است که برخی مدلها حتی نتوانستند از این میزان هم فراتر بروند. بررسی جزئیات اقدامات هوش مصنوعیها حاکی از آن بود که اغلب در مواجهه با موقعیتهای غیرمنتظره و چندمرحلهای، به راهحلهای غیرمنطقی یا حتی تخیلی رو آوردهاند؛ در مواردی همچون تلاش برای ایجاد مدارک جعلی جهت اثبات موفقیت، تغییر دادن نام افراد در سیستم به جای یافتن مخاطب واقعی یا پاسخدهی اشتباه به رخدادهای سیستمی نظیر پیام پاپآپ، این ضعفها آشکار شد.
پژوهشگران در جمعبندی نتایج خود تأکید کردهاند بزرگترین مانع پیشروی ایجنتها، ناتوانی در تشخیص لحظاتی است که دانش یا مهارت کافی را ندارند و باید از یک انسان کمک بگیرند. این مدلها در حالیکه از اعتماد به نفس بالایی برای انجام وظایف خود برخوردار هستند، حتی در صورت ناکامی هم به ندرت درخواست راهنمایی یا بازخورد میکنند. افزون بر این، زمانبندی و هماهنگی میان بخشهای مختلف شرکت و انجام وظایف ترکیبی و وابسته به یکدیگر نیز در بسیاری موارد خارج از توان این ایجنتها بود.
با این وجود، دادههای پروژه نشان میدهد که ایجنتها در بخش توسعه و مهندسی نرمافزار (مانند انجام تسکهای برنامهنویسی، و مدیریت مخازن کد یا بهروزرسانی اسناد فنی) عملکرد به مراتب مطلوبتری داشتهاند و قابل استفادهتر به نظر میرسند. اما در وظایف میانرشتهای، تعاملات انسانی و تصمیمگیری مبتنی بر زمینه واقعی شرکت، هنوز مسیر زیادی تا جایگزینی واقعی نیروهای انسانی در پیش دارند.
دکتر کاپوسکا و تیمش تاکید کردهاند که علیرغم این محدودیتها، حرکت به سمت افزایش هوشمندی و قابلیتهای تطبیقی ایجنتها ادامه خواهد داشت و شرکتها باید انتظارات خود را بر پایه واقعیتهای فعلی بنا کنند. در نتیجه، حداقل تا آینده نزدیک، نظارت و هدایت انسانی بر فرایندهای اجرایی نقش بیبدیلی خواهد داشت و اجتنابناپذیر بهنظر میرسد.
انتهای پیام/