آنتروپیک مدل هوش مصنوعی کلود اوپوس ۴.۵ را معرفی کرد
دسترسپذیری به این مدل جدید برای تمامی کاربران، توسعهدهندگان و سازمانها فراهم شده است. مدل اوپوس ۴.۵ بر روی تمامی سکوهای ابری اصلی و همچنین از طریق API اختصاصی آنتروپیک قابل استفاده است. توسعهدهندگان میتوانند با استفاده از شناسه claude-opus-۴-۵-۲۰۲۵۱۱۰۱ به این سرویس متصل شوند.
تعرفه استفاده از این مدل جدید نیز به میزان ۵ دلار برای هر میلیون توکن ورودی و ۲۵ دلار برای هر میلیون توکن خروجی تعیین شده است که هدف از آن، تسهیل دسترسی تیمها و شرکتهای تجاری به قابلیتهای سطح بالای هوش مصنوعی عنوان شده است. تمرکز اصلی این نسخه بر بهبود کارایی در وظایف روزمره نظیر پژوهشهای عمیق، کار با اسلایدها و صفحات گسترده و همچنین کدنویسی پیچیده است.
کارایی در محیطهای عملیاتی پیچیده
نتایج حاصل از تستهای اولیه نشان میدهد که این مدل در مواجهه با ابهام و چالشهای فنی نیازی به هدایت لحظهبهلحظه ندارد. آزمایشکنندگان داخلی گزارش دادهاند که اوپوس ۴.۵ توانایی شناسایی و رفع باگهای پیچیده و چندسیستمی را دارد؛ وظایفی که انجام آنها برای مدل قبلی یعنی سانت ۴.۵ دشوار بود، اکنون توسط نسخه جدید قابل اجراست.
بازخوردهای دریافتی از مشتریانی که دسترسی زودهنگام داشتهاند نیز حاکی از درک عمیقتر مدل نسبت به مسائل مطرح شده است و این نسخه توانسته تعادل میان گزینههای مختلف را بدون دخالت کاربر تحلیل کند.
سنجش توانایی در برابر متخصصان انسانی
آزمونهای استخدامی مهندسی یکی از معیارهای سنجش توانایی این مدل بوده است. شرکت آنتروپیک اعلام کرده که یک آزمون دشوار مهندسی را که معمولاً برای سنجش داوطلبان شغلی استفاده میشود، به عنوان معیار ارزیابی مدل در نظر گرفته است. اوپوس ۴.۵ در بازه زمانی استاندارد ۲ ساعته، نمرهای بالاتر از تمامی داوطلبان انسانی کسب کرده است.
البته لازم به ذکر است که این آزمون صرفاً توانایی فنی و قضاوت مهندسی تحت فشار زمان را میسنجد و مهارتهای نرم مانند همکاری و ارتباطات انسانی را پوشش نمیدهد، اما پیشی گرفتن یک مدل هوش مصنوعی از متخصصان در مهارتهای فنی، تغییرات احتمالی در آینده حرفه مهندسی را نشان میدهد.
روشهای نوین در حل مسئله و کدنویسی
قابلیتهای استدلال و ریاضیات در این نسخه بهبود یافته است. اوپوس ۴.۵ در ۷ مورد از ۸ زبان برنامهنویسی موجود در بنچمارک SWE-bench Multilingual جایگاه نخست را به خود اختصاص داده است.

فراتر از کدنویسی، توانایی حل مسئله خلاقانه نیز در این مدل مشاهده شده است. در بنچمارک Tau۲-bench که عملکرد عاملها را در سناریوهای دنیای واقعی میسنجد، مدل در نقش یک کارمند خطوط هوایی توانست راهکاری قانونی، اما غیرمنتظره برای تغییر بلیط اکونومی پیدا کند. در حالی که تغییر مستقیم این نوع بلیط طبق قوانین ممنوع بود، مدل ابتدا پیشنهاد ارتقای کابین که مجاز بود و سپس تغییر تاریخ پرواز را ارائه داد. این نوع استدلال چندمرحلهای نشاندهنده فاصله گرفتن از پاسخهای کلیشهای و حرکت به سمت حل مسئله پویا است.
رویکردهای امنیتی در برابر تهدیدات سایبری
امنیت و ایمنی سیستم در نسخه ۴.۵ مورد بازبینی قرار گرفته است. گزارشهای فنی نشان میدهد که این مدل در برابر حملات تزریق پرامپت که با هدف فریب دادن هوش مصنوعی برای انجام کارهای مخرب صورت میگیرد، مقاومت بیشتری نسبت به مدلهای پیشرو دیگر دارد.
ارزیابیهای انجام شده توسط نهادهای ثالث مانند Gray Swan نیز پایداری امنیتی این مدل را تأیید کردهاند. هدف از این ارتقای ایمنی، اطمینان بخشیدن به سازمانهایی است که از هوش مصنوعی برای وظایف حساس استفاده میکنند و نگران حملات سایبری و سوءاستفاده از مدل هستند.
بهینهسازی مصرف منابع و پارامترهای کنترلی
سکو توسعهدهندگان کلود نیز همزمان با عرضه این مدل بهروزرسانی شده است. توسعهدهندگان اکنون به پارامتر جدیدی تحت عنوان «تلاش» دسترسی دارند که امکان مدیریت تعادل بین سرعت و دقت را فراهم میکند. تنظیم این پارامتر روی حالت متوسط باعث میشود اوپوس ۴.۵ عملکردی مشابه بهترین حالت مدل قبلی (سانت ۴.۵) داشته باشد، اما با ۷۶ درصد تولید توکن کمتر. در بالاترین سطح تلاش، عملکرد مدل ۴.۳ درصد بهتر از مدل قبلی است و همچنان ۴۸ درصد توکن کمتری مصرف میکند. این ویژگی به توسعهدهندگان اجازه میدهد تا بسته به نیاز پروژه، بین صرفهجویی در هزینه و حداکثر توانایی مدل انتخاب کنند.
توسعه زیستبوم نرمافزاری و ابزارهای جانبی
محصولات جانبی و ابزارهای کاربردی نیز دستخوش تغییرات شدهاند. ابزار کلود Code اکنون دارای قابلیت Plan Mode است که قبل از اجرای کد، یک برنامه دقیق و قابل ویرایش ایجاد میکند و سوالات شفافسازی را از کاربر میپرسد. نسخه دسکتاپ این ابزار امکان اجرای چندین نشست موازی را فراهم کرده است؛ به این معنی که کاربر میتواند همزمان یک عامل را مسئول رفع باگ، دیگری را مسئول جستوجو در گیتهاب و سومی را مسئول بهروزرسانی مستندات کند.
کاربران نسخه وب و برنامک نیز تغییراتی را تجربه خواهند کرد. مشکل محدودیت در مکالمات طولانی برطرف شده است و سیستم اکنون به صورت خودکار محتوای قبلی را خلاصه میکند تا مکالمه بدون توقف ادامه یابد. افزونه کلود برای مرورگر کروم که امکان تعامل با تبهای مرورگر را فراهم میکند، اکنون برای تمامی کاربران طرح مکس در دسترس است.
همچنین نسخه آزمایشی کلود برای اکسل که پیشتر معرفی شده بود، اکنون برای تمامی کاربران سطوح مکس، تیم و سازمانی فعال شده است. محدودیتهای استفاده از اوپوس ۴.۵ برای کاربران طرحهای تجاری افزایش یافته تا با نیازهای کاری روزانه همخوانی داشته باشد.
انتهای پیام/


