میسترال اولین مدل صوتی مبتنی بر هوش مصنوعی را با نام Voxtral منتشر کرد

در حالی که تعامل با ماشینها از طریق گفتار به سرعت در حال تبدیل شدن به روش پیشفرض است، استارتآپ هوش مصنوعی فرانسوی میسترال (Mistral) با رونمایی از اولین مدل صوتی خود وارد این عرصه شده است. این مدل که با نام Voxtral شناخته میشود، اولین خانواده مدلهای صوتی این شرکت است که به طور خاص برای استفاده در محیطهای کسبوکار طراحی شده است.
طبق اعلام میسترال، Voxtral اولین مدل صوتی مبتنی بر هوش مصنوعی است که میتواند «هوشمندی گفتاری و قابل استفاده» را در محیطهای عملیاتی فراهم کند. این مدل قرار است جایگزین مناسبی برای سیستمهای تجاری بسته شود که یا عملکرد ضعیفی دارند یا هزینه بالایی را برای کاربران به همراه میآورند.
قابلیتهای قدرتمند Voxtral
بر اساس ادعای میسترال، Voxtral قادر است تا ۳۰ دقیقه صوت را به متن تبدیل کند و بسیار بیشتر از آن فقط تبدیل صوت به متن عمل کند. این مدل با استفاده از مدل زبانی بزرگ (LLM) داخلی میسترال به نام Mistral Small ۳.۱، میتواند محتوای صوتی را تا ۴۰ دقیقه درک کند. این قابلیت به کاربران اجازه میدهد سوالاتی درباره محتوا بپرسند، خلاصههایی تهیه کنند یا دستورات صوتی را به اقدامات لحظهای مثل فراخوانی APIها یا اجرای توابع تبدیل کنند. علاوه بر این، Voxtral چندزبانه است و قادر به تبدیل و درک گفتار به زبانهای انگلیسی، اسپانیایی، فرانسوی، پرتغالی، هندی، آلمانی، هلندی و ایتالیایی میباشد.
نسخههای مختلف Voxtral
میسترال دو نسخه اصلی از مدل «درک گفتار» منتشر کرده است:
- Voxtral Small: این نسخه دارای ۲۴ میلیارد پارامتر است و برای استقرار در مقیاس شرکتی طراحی شده است. این مدل در رقابت با سیستمهایی مانند ElevenLabs Scribe، GPT-۴o-mini و Gemini ۲.۵ Flash قرار دارد.
- Voxtral Mini: با ۳ میلیارد پارامتر، این نسخه برای استفاده محلی و در دستگاههای لبه (edge devices) بهینهسازی شده است.
همچنین، نسخهای ارزانتر و سریعتر از Voxtral Mini با نام Voxtral Mini Transcribe نیز برای مواردی که فقط نیاز به تبدیل صوت به متن است، در دسترس قرار گرفته است. میسترال ادعا میکند این نسخه عملکردی بهتر از OpenAI Whisper داشته و با هزینهای کمتر از نصف آن در دسترس است.
نحوه دسترسی و هزینه
به گزارش techcrunch، کاربران میتوانند Voxtral را به صورت رایگان از طریق API در Hugging Face دانلود کنند یا مدلها را در ربات گفتوگویی Le Chat میسترال تست کنند. همچنین، استفاده از API این مدل برای ادغام در برنامههای کاربردی از هزینهای معادل ۰٫۰۰۱ دلار در دقیقه شروع میشود. این انتشار یک ماه پس از معرفی Magistral، اولین خانواده از مدلهای استنتاجی میسترال که برای حل مسائل به صورت مرحلهای طراحی شدهاند، انجام شده است.
سابقه میسترال در حوزه AI
میسترال یکی از شناختهشدهترین شرکتهای هوش مصنوعی در اروپا است که همواره از توسعه مدلهای مبتنی بر منبع باز حمایت کرده است. چندی پیش نیز گزارشهایی مبنی بر صحبتهای این شرکت برای جذب تا یک میلیارد دلار سرمایه از سرمایهگذارانی مانند صندوق MGX از ابوظبی منتشر شده بود. انتشار Voxtral گامی مهم در جهت افزایش دسترسی عمومی به فناوریهای هوش مصنوعی است که با توجه به کیفیت بالا و هزینه مناسب، میتواند تأثیر قابل توجهی در بازار هوش مصنوعی صوتی داشته باشد.
انتهای پیام/