آنتروپیک مدل هوش مصنوعی کلود اوپوس ۴.۵ را معرفی کرد

شرکت آنتروپیک جدیدترین و پیشرفته‌ترین مدل زبانی خود را با نام کلود اوپوس ۴.۵ با تمرکز ویژه بر قابلیت‌های برنامه‌نویسی، عامل‌های هوشمند و تحلیل‌های عمیق پژوهشی معرفی کرد که طبق مستندات فنی منتشرشده، در آزمون‌های مهندسی نرم‌افزار عملکردی بالاتر از متخصصان انسانی ثبت کرده است.

نویسنده : اشکان حاسبی

کد خبر : 1014386

اشتراک گذاری

دسترس‌پذیری به این مدل جدید برای تمامی کاربران، توسعه‌دهندگان و سازمان‌ها فراهم شده است. مدل اوپوس ۴.۵ بر روی تمامی سکوهای ابری اصلی و همچنین از طریق API اختصاصی آنتروپیک قابل استفاده است. توسعه‌دهندگان می‌توانند با استفاده از شناسه claude-opus-۴-۵-۲۰۲۵۱۱۰۱ به این سرویس متصل شوند.

تعرفه استفاده از این مدل جدید نیز به میزان ۵ دلار برای هر میلیون توکن ورودی و ۲۵ دلار برای هر میلیون توکن خروجی تعیین شده است که هدف از آن، تسهیل دسترسی تیم‌ها و شرکت‌های تجاری به قابلیت‌های سطح بالای هوش مصنوعی عنوان شده است. تمرکز اصلی این نسخه بر بهبود کارایی در وظایف روزمره نظیر پژوهش‌های عمیق، کار با اسلاید‌ها و صفحات گسترده و همچنین کدنویسی پیچیده است.

کارایی در محیط‌های عملیاتی پیچیده

نتایج حاصل از تست‌های اولیه نشان می‌دهد که این مدل در مواجهه با ابهام و چالش‌های فنی نیازی به هدایت لحظه‌به‌لحظه ندارد. آزمایش‌کنندگان داخلی گزارش داده‌اند که اوپوس ۴.۵ توانایی شناسایی و رفع باگ‌های پیچیده و چندسیستمی را دارد؛ وظایفی که انجام آن‌ها برای مدل قبلی یعنی سانت ۴.۵ دشوار بود، اکنون توسط نسخه جدید قابل اجراست.

بازخورد‌های دریافتی از مشتریانی که دسترسی زودهنگام داشته‌اند نیز حاکی از درک عمیق‌تر مدل نسبت به مسائل مطرح شده است و این نسخه توانسته تعادل میان گزینه‌های مختلف را بدون دخالت کاربر تحلیل کند.

سنجش توانایی در برابر متخصصان انسانی

آزمون‌های استخدامی مهندسی یکی از معیار‌های سنجش توانایی این مدل بوده است. شرکت آنتروپیک اعلام کرده که یک آزمون دشوار مهندسی را که معمولاً برای سنجش داوطلبان شغلی استفاده می‌شود، به عنوان معیار ارزیابی مدل در نظر گرفته است. اوپوس ۴.۵ در بازه زمانی استاندارد ۲ ساعته، نمره‌ای بالاتر از تمامی داوطلبان انسانی کسب کرده است.

البته لازم به ذکر است که این آزمون صرفاً توانایی فنی و قضاوت مهندسی تحت فشار زمان را می‌سنجد و مهارت‌های نرم مانند همکاری و ارتباطات انسانی را پوشش نمی‌دهد، اما پیشی گرفتن یک مدل هوش مصنوعی از متخصصان در مهارت‌های فنی، تغییرات احتمالی در آینده حرفه مهندسی را نشان می‌دهد.

روش‌های نوین در حل مسئله و کدنویسی

قابلیت‌های استدلال و ریاضیات در این نسخه بهبود یافته است. اوپوس ۴.۵ در ۷ مورد از ۸ زبان برنامه‌نویسی موجود در بنچمارک SWE-bench Multilingual جایگاه نخست را به خود اختصاص داده است.

فراتر از کدنویسی، توانایی حل مسئله خلاقانه نیز در این مدل مشاهده شده است. در بنچمارک Tau۲-bench که عملکرد عامل‌ها را در سناریو‌های دنیای واقعی می‌سنجد، مدل در نقش یک کارمند خطوط هوایی توانست راهکاری قانونی، اما غیرمنتظره برای تغییر بلیط اکونومی پیدا کند. در حالی که تغییر مستقیم این نوع بلیط طبق قوانین ممنوع بود، مدل ابتدا پیشنهاد ارتقای کابین که مجاز بود و سپس تغییر تاریخ پرواز را ارائه داد. این نوع استدلال چندمرحله‌ای نشان‌دهنده فاصله گرفتن از پاسخ‌های کلیشه‌ای و حرکت به سمت حل مسئله پویا است.

رویکرد‌های امنیتی در برابر تهدیدات سایبری

امنیت و ایمنی سیستم در نسخه ۴.۵ مورد بازبینی قرار گرفته است. گزارش‌های فنی نشان می‌دهد که این مدل در برابر حملات تزریق پرامپت که با هدف فریب دادن هوش مصنوعی برای انجام کار‌های مخرب صورت می‌گیرد، مقاومت بیشتری نسبت به مدل‌های پیشرو دیگر دارد.

ارزیابی‌های انجام شده توسط نهاد‌های ثالث مانند Gray Swan نیز پایداری امنیتی این مدل را تأیید کرده‌اند. هدف از این ارتقای ایمنی، اطمینان بخشیدن به سازمان‌هایی است که از هوش مصنوعی برای وظایف حساس استفاده می‌کنند و نگران حملات سایبری و سوءاستفاده از مدل هستند.

بهینه‌سازی مصرف منابع و پارامتر‌های کنترلی

سکو توسعه‌دهندگان کلود نیز همزمان با عرضه این مدل به‌روزرسانی شده است. توسعه‌دهندگان اکنون به پارامتر جدیدی تحت عنوان «تلاش» دسترسی دارند که امکان مدیریت تعادل بین سرعت و دقت را فراهم می‌کند. تنظیم این پارامتر روی حالت متوسط باعث می‌شود اوپوس ۴.۵ عملکردی مشابه بهترین حالت مدل قبلی (سانت ۴.۵) داشته باشد، اما با ۷۶ درصد تولید توکن کمتر. در بالاترین سطح تلاش، عملکرد مدل ۴.۳ درصد بهتر از مدل قبلی است و همچنان ۴۸ درصد توکن کمتری مصرف می‌کند. این ویژگی به توسعه‌دهندگان اجازه می‌دهد تا بسته به نیاز پروژه، بین صرفه‌جویی در هزینه و حداکثر توانایی مدل انتخاب کنند.

توسعه زیست‌بوم نرم‌افزاری و ابزار‌های جانبی

محصولات جانبی و ابزار‌های کاربردی نیز دستخوش تغییرات شده‌اند. ابزار کلود Code اکنون دارای قابلیت Plan Mode است که قبل از اجرای کد، یک برنامه دقیق و قابل ویرایش ایجاد می‌کند و سوالات شفاف‌سازی را از کاربر می‌پرسد. نسخه دسکتاپ این ابزار امکان اجرای چندین نشست موازی را فراهم کرده است؛ به این معنی که کاربر می‌تواند همزمان یک عامل را مسئول رفع باگ، دیگری را مسئول جست‌و‌جو در گیت‌هاب و سومی را مسئول به‌روزرسانی مستندات کند.

کاربران نسخه وب و برنامک نیز تغییراتی را تجربه خواهند کرد. مشکل محدودیت در مکالمات طولانی برطرف شده است و سیستم اکنون به صورت خودکار محتوای قبلی را خلاصه می‌کند تا مکالمه بدون توقف ادامه یابد. افزونه کلود برای مرورگر کروم که امکان تعامل با تب‌های مرورگر را فراهم می‌کند، اکنون برای تمامی کاربران طرح مکس در دسترس است.

همچنین نسخه آزمایشی کلود برای اکسل که پیش‌تر معرفی شده بود، اکنون برای تمامی کاربران سطوح مکس، تیم و سازمانی فعال شده است. محدودیت‌های استفاده از اوپوس ۴.۵ برای کاربران طرح‌های تجاری افزایش یافته تا با نیاز‌های کاری روزانه همخوانی داشته باشد.

انتهای پیام/

گزارش خطا

پسندها : 0

اشتراک گذاری

ارسال نظر

پربازدید
آخرین اخبار
پربحث