میسترال اولین مدل صوتی مبتنی بر هوش مصنوعی را با نام Voxtral منتشر کرد

استارت‌آپ فرانسوی میسترال، یکی از پیشروان حوزه هوش مصنوعی در اروپا، مدل جدید صوتی خود به نام Voxtral را رونمایی کرد. مدلی مبتنی بر هوش مصنوعی که قصد دارد با سیستم‌های بسته و تجاری موجود رقابت کند و در عین حال عملکرد بالا و هزینه مناسبی برای توسعه‌دهندگان و شرکت‌ها فراهم کند.

نویسنده : فاطمه عربقرایی

کد خبر : 985036

اشتراک گذاری

در حالی که تعامل با ماشین‌ها از طریق گفتار به سرعت در حال تبدیل شدن به روش پیش‌فرض است، استارت‌آپ هوش مصنوعی فرانسوی میسترال (Mistral) با رونمایی از اولین مدل صوتی خود وارد این عرصه شده است. این مدل که با نام Voxtral شناخته می‌شود، اولین خانواده مدل‌های صوتی این شرکت است که به طور خاص برای استفاده در محیط‌های کسب‌وکار طراحی شده است.

طبق اعلام میسترال، Voxtral اولین مدل صوتی مبتنی بر هوش مصنوعی است که می‌تواند «هوشمندی گفتاری و قابل استفاده» را در محیط‌های عملیاتی فراهم کند. این مدل قرار است جایگزین مناسبی برای سیستم‌های تجاری بسته شود که یا عملکرد ضعیفی دارند یا هزینه بالایی را برای کاربران به همراه می‌آورند.

قابلیت‌های قدرتمند Voxtral

بر اساس ادعای میسترال، Voxtral قادر است تا ۳۰ دقیقه صوت را به متن تبدیل کند و بسیار بیشتر از آن فقط تبدیل صوت به متن عمل کند. این مدل با استفاده از مدل زبانی بزرگ (LLM) داخلی میسترال به نام Mistral Small ۳.۱، می‌تواند محتوای صوتی را تا ۴۰ دقیقه درک کند. این قابلیت به کاربران اجازه می‌دهد سوالاتی درباره محتوا بپرسند، خلاصه‌هایی تهیه کنند یا دستورات صوتی را به اقدامات لحظه‌ای مثل فراخوانی API‌ها یا اجرای توابع تبدیل کنند. علاوه بر این، Voxtral چندزبانه است و قادر به تبدیل و درک گفتار به زبان‌های انگلیسی، اسپانیایی، فرانسوی، پرتغالی، هندی، آلمانی، هلندی و ایتالیایی می‌باشد.

نسخه‌های مختلف Voxtral

میسترال دو نسخه اصلی از مدل «درک گفتار» منتشر کرده است:

- Voxtral Small: این نسخه دارای ۲۴ میلیارد پارامتر است و برای استقرار در مقیاس شرکتی طراحی شده است. این مدل در رقابت با سیستم‌هایی مانند ElevenLabs Scribe، GPT-۴o-mini و Gemini ۲.۵ Flash قرار دارد.

- Voxtral Mini: با ۳ میلیارد پارامتر، این نسخه برای استفاده محلی و در دستگاه‌های لبه (edge devices) بهینه‌سازی شده است.

همچنین، نسخه‌ای ارزان‌تر و سریع‌تر از Voxtral Mini با نام Voxtral Mini Transcribe نیز برای مواردی که فقط نیاز به تبدیل صوت به متن است، در دسترس قرار گرفته است. میسترال ادعا می‌کند این نسخه عملکردی بهتر از OpenAI Whisper داشته و با هزینه‌ای کمتر از نصف آن در دسترس است.

نحوه دسترسی و هزینه

به گزارش techcrunch، کاربران می‌توانند Voxtral را به صورت رایگان از طریق API در Hugging Face دانلود کنند یا مدل‌ها را در ربات گفت‌وگویی Le Chat میسترال تست کنند. همچنین، استفاده از API این مدل برای ادغام در برنامه‌های کاربردی از هزینه‌ای معادل ۰٫۰۰۱ دلار در دقیقه شروع می‌شود. این انتشار یک ماه پس از معرفی Magistral، اولین خانواده از مدل‌های استنتاجی میسترال که برای حل مسائل به صورت مرحله‌ای طراحی شده‌اند، انجام شده است.

سابقه میسترال در حوزه AI

میسترال یکی از شناخته‌شده‌ترین شرکت‌های هوش مصنوعی در اروپا است که همواره از توسعه مدل‌های مبتنی بر منبع باز حمایت کرده است. چندی پیش نیز گزارش‌هایی مبنی بر صحبت‌های این شرکت برای جذب تا یک میلیارد دلار سرمایه از سرمایه‌گذارانی مانند صندوق MGX از ابوظبی منتشر شده بود. انتشار Voxtral گامی مهم در جهت افزایش دسترسی عمومی به فناوری‌های هوش مصنوعی است که با توجه به کیفیت بالا و هزینه مناسب، می‌تواند تأثیر قابل توجهی در بازار هوش مصنوعی صوتی داشته باشد.

انتهای پیام/