عملکرد ضعیف ایجنت‌ها در شبیه‌سازی شرکت واقعی

بهترین مدل‌های هوش‌ مصنوعی هم به کمک انسان نیاز دارند

یک تیم تحقیقاتی از دانشگاه کارنگی ملون آمریکا با ساخت یک «شرکت شبیه‌سازی‌شده» دیجیتال و سپردن کارها به پیشرفته‌ترین مدل‌های هوش مصنوعی جهان، نشان داد حتی بهترین ایجنت‌ها هم بدون نظارت و راهبری انسان، تنها حدود ۲۴ درصد وظایف را به سرانجام می‌رسانند؛ عملکردی ضعیف که زنگ خطر‌ را در خصوص جایگزینی کامل انسان با هوش مصنوعی در شرکت‌ها به صدا درآورد.

کد خبر : 973416

اشتراک گذاری

همزمان با شدت گرفتن گمانه‌زنی‌ها پیرامون امکان جایگزینی کامل نیروی انسانی با هوش مصنوعی در کسب‌وکارها، نتایج تازه‌ترین پژوهش دانشگاه کارنگی ملون (Carnegie Mellon University) موج تازه‌ای از تردید‌ها را در این عرصه به وجود آورده است. این گروه پژوهشی با هدایت دکتر آنجا کاپوسکا و همکارانش، پلتفرمی جدید به نام TheAgentCompany را توسعه داده‌اند که هدف آن آزمودن عمق کارایی ایجنت‌های هوش مصنوعی در فضای شبیه‌سازی‌شده یک شرکت واقعی، خارج از شرایط کنترل‌شده آزمایشگاهی است.

در شرایطی که عمده پژوهش‌های پیشین محدود به تست‌های بسیار هدایت‌شده یا سناریو‌های ساده بوده است، این پروژه در صدد بازسازی محیط واقعی شرکتی مدرن در حوزه توسعه نرم‌افزار برآمده است: کاربران هوش مصنوعی باید همانند یک کارمند واقعی در رویارویی با چالش‌ها، فعالیت‌های سیستمی، تبادل اطلاعات و تعامل با سایر بخش‌ها وظایف خود را پیش ببرند. در این سناریو، ابزار‌های پرکاربرد سازمانی نظیر GitLab برای مدیریت مخزن‌های کد، ownCloud برای ذخیره و به‌اشتراک‌گذاری فایل‌ها، RocketChat به‌عنوان پیام‌رسان سازمانی و Plane برای مدیریت پروژه، به صورت کاملاً واقعی و عملیاتی پیاده‌سازی شده است.

در گام بعدی، وظایف کاملاً واقع‌گرایانه - مدیریت پروژه، توسعه نرم‌افزار و امور مهندسی گرفته تا فرآیند‌های مربوط به منابع انسانی و ثبت اسناد مالی - برای این ایجنت‌ها تعریف شد و آنها می‌بایست بدون هیچگونه کمکی از انسان، همه مراحل را پیش ببرند. ۱۱ مدل هوش مصنوعی از معتبرترین و پیشرفته‌ترین نمونه‌های جهان از جمله Claude ۳.۵ محصول Anthropic ،ChatGPT-۴o شرکت OpenAI ،Gemini از گوگل، Amazon Nova و مدل‌های متن‌باز شاخص مانند Llama و Qwen در این آزمون شرکت داده شدند. هر مدل با ۱۷۵ تسک اختصاصی رو‌به‌رو شد که دامنه‌ای گسترده از وظایف رایج محیط‌های کاری واقعی را دربر می‌گرفت.

بزرگ‌ترین مانع پیش‌روی ایجنت‌ها، ناتوانی در تشخیص لحظاتی است که دانش یا مهارت کافی را ندارند و باید از یک انسان کمک بگیرند. این مدل‌ها در حالی‌که از اعتماد به نفس بالایی برای انجام وظایف خود برخوردار هستند، حتی در صورت ناکامی هم به ندرت درخواست راهنمایی یا بازخورد می‌کنند

یافته‌های این آزمایش واقع‌گرایانه خالی از شگفتی نبود: برترین مدل یعنی Claude ۳.۵ در حالی بهترین عملکرد را ثبت کرد که تنها موفق به تکمیل ۲۴ درصد کل وظایف شد. این در حالی است که برخی مدل‌ها حتی نتوانستند از این میزان هم فراتر بروند. بررسی جزئیات اقدامات هوش مصنوعی‌ها حاکی از آن بود که اغلب در مواجهه با موقعیت‌های غیرمنتظره و چند‌مرحله‌ای، به راه‌حل‌های غیرمنطقی یا حتی تخیلی رو آورده‌اند؛ در مواردی همچون تلاش برای ایجاد مدارک جعلی جهت اثبات موفقیت، تغییر دادن نام افراد در سیستم به جای یافتن مخاطب واقعی یا پاسخ‌دهی اشتباه به رخداد‌های سیستمی نظیر پیام پاپ‌آپ، این ضعف‌ها آشکار شد.

پژوهشگران در جمع‌بندی نتایج خود تأکید کرده‌اند بزرگ‌ترین مانع پیش‌روی ایجنت‌ها، ناتوانی در تشخیص لحظاتی است که دانش یا مهارت کافی را ندارند و باید از یک انسان کمک بگیرند. این مدل‌ها در حالی‌که از اعتماد به نفس بالایی برای انجام وظایف خود برخوردار هستند، حتی در صورت ناکامی هم به ندرت درخواست راهنمایی یا بازخورد می‌کنند. افزون بر این، زمان‌بندی و هماهنگی میان بخش‌های مختلف شرکت و انجام وظایف ترکیبی و وابسته به یکدیگر نیز در بسیاری موارد خارج از توان این ایجنت‌ها بود.

با این وجود، داده‌های پروژه نشان می‌دهد که ایجنت‌ها در بخش توسعه و مهندسی نرم‌افزار (مانند انجام تسک‌های برنامه‌نویسی، و مدیریت مخازن کد یا به‌روزرسانی اسناد فنی) عملکرد به مراتب مطلوب‌تری داشته‌اند و قابل استفاده‌تر به نظر می‌رسند. اما در وظایف میان‌رشته‌ای، تعاملات انسانی و تصمیم‌گیری مبتنی بر زمینه واقعی شرکت، هنوز مسیر زیادی تا جایگزینی واقعی نیرو‌های انسانی در پیش دارند.

دکتر کاپوسکا و تیمش تاکید کرده‌اند که علی‌رغم این محدودیت‌ها، حرکت به سمت افزایش هوشمندی و قابلیت‌های تطبیقی ایجنت‌ها ادامه خواهد داشت و شرکت‌ها باید انتظارات خود را بر پایه واقعیت‌های فعلی بنا کنند. در نتیجه، حداقل تا آینده نزدیک، نظارت و هدایت انسانی بر فرایند‌های اجرایی نقش بی‌بدیلی خواهد داشت و اجتناب‌ناپذیر به‌نظر می‌رسد.

انتهای پیام/

گزارش خطا

پسندها : 0

اشتراک گذاری

ارسال نظر

پربازدید
آخرین اخبار
پربحث