نسل سوم هوش مصنوعی الون‌لبز با پشتیبانی از زبان فارسی رونمایی شد + فیلم

شرکت ElevenLabs، یکی از پیشگامان در حوزه فناوری‌های صوتی هوش مصنوعی، از عرضه نسل سوم و جدیدترین مدل تبدیل متن به گفتار (Text-to-Speech) خود خبر داد. این مدل که طبق اعلام شرکت بر تولید صدای طبیعی و انتقال دقیق احساسات انسانی تمرکز دارد، از بیش از ۷۰ زبان زنده دنیا از جمله زبان فارسی پشتیبانی می‌کند و قابلیت‌های جدیدی برای تولید محتوای صوتی چندشخصیتی و کنترل لحن ارائه می‌دهد.

نویسنده : اشکان حاسبی

کد خبر : 977480

اشتراک گذاری

شرکت ElevenLabs به طور رسمی از جدیدترین دستاورد خود در زمینه هوش مصنوعی مولد صدا رونمایی کرد. این مدل نسل سوم، که نتیجه تحقیقات گسترده این شرکت در حوزه سنتز گفتار است، با هدف کاهش شکاف میان صدای تولیدی ماشین و صدای طبیعی انسان توسعه یافته است. طبق ادعای شرکت سازنده، این مدل قادر است با کیفیتی بی‌سابقه، متن را به گفتاری روان و طبیعی تبدیل کند و طیف وسیعی از احساسات و لحن‌ها را در خروجی صوتی خود بازتولید نماید.

یکی از اصلی‌ترین ویژگی‌های این مدل جدید، قابلیت آن در درک و تولید صدا‌های غیرکلامی و لحن‌های پیچیده است. کاربران اکنون می‌توانند علاوه بر متن اصلی، دستوراتی برای افزودن حالت‌هایی مانند خنده، گریه، آه کشیدن و همچنین لحن‌هایی نظیر زمزمه کردن، فریاد زدن یا صحبت با حالت کنایه‌آمیز را به مدل ارائه دهند. این قابلیت، کاربرد این فناوری را برای تولیدکنندگان محتوای صوتی، پادکستر‌ها و سازندگان کتاب‌های صوتی به شکل چشمگیری افزایش می‌دهد.

در بخش پشتیبانی از زبان‌ها، این مدل با پوشش بیش از ۷۰ زبان، گستره وسیعی از کاربران جهانی را هدف قرار داده است. نکته قابل توجه برای کاربران فارسی‌زبان، پشتیبانی کامل و بهینه‌سازی شده از زبان فارسی در این نسخه است که امکان تولید محتوای صوتی باکیفیت به این زبان را فراهم می‌آورد.

علاوه بر این، ElevenLabs ویژگی جدیدی را برای مدیریت پروژه‌های صوتی چندشخصیتی معرفی کرده است. این قابلیت به کاربران اجازه می‌دهد تا متن‌های طولانی مانند یک نمایشنامه یا یک سناریو را که در آن چندین گوینده حضور دارند، به سیستم وارد کنند. سپس می‌توان برای هر بخش از دیالوگ، یک صدای مشخص از میان صدا‌های موجود یا صدا‌های شبیه‌سازی شده شخصی تعیین کرد تا خروجی نهایی به صورت یک فایل صوتی یکپارچه با مکالمات طبیعی بین چند شخصیت تولید شود.

این شرکت همچنین اعلام کرده است که دسترسی به این مدل جدید برای عموم کاربران از طریق وب‌سایت آن فراهم است. کاربران می‌توانند برای آزمایش قابلیت‌های این مدل، به صورت رایگان متن‌های کوتاه را از این لینک مراجعه کرده و کیفیت خروجی آن را ارزیابی کنند. دسترسی‌های گسترده‌تر و تجاری نیز از طریق رابط برنامه‌نویسی کاربردی (API) برای توسعه‌دهندگان فراهم شده است تا بتوانند این فناوری را در محصولات و سرویس‌های خود ادغام کنند.