موارد مهم
- شرکتها در حال رقابت برای یافتن راههایی هستند تا گفتار تولید شده توسط رایانه را واقعیتر کنند.
- NVIDIA اخیراً از ابزارهایی رونمایی کرده است که می توانند صدای گفتار طبیعی را با امکان آموزش هوش مصنوعی با صدای خود ضبط کنند.
- یک کارشناس میگوید لحن، احساسات، و موزیکال بودن ویژگیهایی هستند که صداهای رایانه هنوز فاقد آنها هستند.
سخنرانی تولید شده توسط رایانه به زودی ممکن است بسیار انسانی تر به نظر برسد.
سازنده قطعات رایانه NVIDIA اخیراً از ابزارهایی رونمایی کرده است که می توانند صدای گفتار طبیعی را با اجازه دادن به شما برای آموزش هوش مصنوعی با صدای خود ضبط کنند.این نرم افزار همچنین می تواند کلمات یک گوینده را با استفاده از صدای شخص دیگر ارائه دهد. این بخشی از یک فشار رو به رشد برای واقعیتر کردن گفتار رایانهای است.
مایکل زاگورسک، مدیر عامل شرکت تشخیص گفتار SoundHound "فناوری پیشرفته هوش مصنوعی صوتی به کاربران امکان می دهد به طور طبیعی صحبت کنند، بسیاری از سوالات را در یک جمله ترکیب می کند و نیازی به تکرار مداوم جزئیات از پرس و جو اصلی را از بین می برد." ، در یک مصاحبه ایمیلی به Lifewire گفت.
«افزودن چندین زبان، که اکنون در اکثر پلتفرمهای هوش مصنوعی صوتی موجود است، دستیارهای صوتی دیجیتال را در مناطق جغرافیایی بیشتر و برای جمعیتهای بیشتری قابل دسترس میکند.»
Robospeech Rising
Amazon's Alexa و Apple's Siri صدایی بسیار بهتر از سخنرانی رایانه ای حتی یک دهه پیش دارند، اما به این زودی با صدای واقعی انسان اشتباه نخواهند شد.
برای اینکه گفتار مصنوعی طبیعی تر به نظر برسد، تیم تحقیقاتی تبدیل متن به گفتار NVIDIA مدل RAD-TTS را توسعه داد. این سیستم به افراد اجازه میدهد تا مدل تبدیل متن به گفتار (TTS) را با صدای خود، از جمله سرعت، تونالیته، صدا و سایر عوامل آموزش دهند.
این شرکت از مدل جدید خود برای ساخت روایت صوتی با صدای مکالمه بیشتر برای مجموعه ویدیویی I Am AI خود استفاده کرد.
با این رابط، تهیه کننده ویدیوی ما می تواند خود را در حال خواندن فیلمنامه ویدیو ضبط کند و سپس از مدل هوش مصنوعی برای تبدیل گفتار خود به صدای راوی زن استفاده کند. با استفاده از این روایت پایه، تهیه کننده می تواند هوش مصنوعی را مانند انویدیا در وبسایت خود نوشت: «انویدیا» در وبسایت خود نوشت: صداپیشه، گفتار ترکیبشده را برای تأکید بر کلمات خاص تغییر میدهد و سرعت روایت را برای بیان بهتر لحن ویدیو تغییر میدهد.
سخت تر از آن چیزی که به نظر می رسد
به گفته کارشناسان، طبیعی کردن گفتار تولید شده توسط رایانه یک مشکل دشوار است.
ناظم راگیموف، مدیرعامل شرکت نرمافزار متن به گفتار Kukarella، در مصاحبهای با لایفوایر گفت: "شما باید صدها ساعت از صدای کسی را ضبط کنید تا نسخه کامپیوتری آن را بسازید." "و ضبط باید کیفیت بالایی داشته باشد و در یک استودیو حرفه ای ضبط شده باشد.هرچه ساعتهای بیشتری از گفتار با کیفیت بارگیری و پردازش شود، نتیجه بهتری حاصل میشود."
متن به گفتار را می توان در بازی، برای کمک به افراد دارای ناتوانی صوتی یا کمک به کاربران برای ترجمه بین زبان ها با صدای خود استفاده کرد.
راگیموف گفتآهنگ، احساسات و موزیکال بودن ویژگی هایی هستند که صداهای رایانه هنوز فاقد آن هستند.
اگر هوش مصنوعی بتواند این پیوندهای گمشده را اضافه کند، گفتار تولید شده توسط رایانه "از صدای بازیگران واقعی قابل تشخیص نیست". "این کار در حال انجام است. صداهای دیگر می توانند با مجریان رادیو رقابت کنند. به زودی صداهایی را خواهید دید که می توانند بخوانند و کتاب های صوتی بخوانند."
فناوری گفتار در طیف گستردهای از کسبوکارها محبوبتر میشود.
زاگورسک گفت: «صنعت خودرو اخیراً از هوش مصنوعی صوتی به عنوان راهی برای ایجاد تجربههای رانندگی ایمنتر و مرتبطتر استفاده کرده است.
"از آن زمان، دستیارهای صوتی به طور فزاینده ای در همه جا حاضر شده اند، زیرا برندها به دنبال راه هایی برای بهبود تجربیات مشتری و پاسخگویی به تقاضا برای روش های ساده تر، ایمن تر، راحت تر، کارآمدتر و بهداشتی تر برای تعامل با محصولات و خدمات خود هستند."
معمولاً، هوش مصنوعی صوتی، درخواستها را در یک فرآیند دو مرحلهای به پاسخها تبدیل میکند که با رونویسی گفتار به متن با استفاده از تشخیص خودکار گفتار (ASR) و سپس تغذیه آن متن به یک مدل درک زبان طبیعی (NLU) آغاز میشود.
رویکرد SoundHound این دو مرحله را در یک فرآیند برای ردیابی گفتار در زمان واقعی ترکیب می کند. این شرکت ادعا میکند که این تکنیک به دستیاران صوتی اجازه میدهد تا معنای درخواستهای کاربر را حتی قبل از اینکه صحبتش تمام شود، درک کنند.
پیشرفتهای آتی در گفتار رایانه، از جمله در دسترس بودن انواع گزینههای اتصال از تنها تعبیهشده (بدون نیاز به اتصال ابری) تا هیبریدی (تعریف شده پلاس ابری) و فقط ابری «انتخاب بیشتری را به شرکتها در سراسر صنایع میدهد. از نظر هزینه، حریم خصوصی و در دسترس بودن قدرت پردازش، زاگورسک گفت.
NVIDIA گفت مدلهای هوش مصنوعی خبری آن فراتر از صداگذاری است.
"متن به گفتار را می توان در بازی، برای کمک به افراد دارای ناتوانی صوتی یا کمک به کاربران برای ترجمه بین زبان ها با صدای خود استفاده کرد." حتی میتواند اجرای خوانندگان نمادین را بازسازی کند، نه تنها با ملودی یک آهنگ بلکه با بیان احساسی پشت آواز همخوانی دارد.»