چگونه هوش مصنوعی می تواند گفتار رایانه را طبیعی تر کند

فهرست مطالب:

2024 نویسنده: Abigail Brown | [email protected]. آخرین اصلاح شده: 2023-12-17 06:46

موارد مهم

شرکت‌ها در حال رقابت برای یافتن راه‌هایی هستند تا گفتار تولید شده توسط رایانه را واقعی‌تر کنند.
NVIDIA اخیراً از ابزارهایی رونمایی کرده است که می توانند صدای گفتار طبیعی را با امکان آموزش هوش مصنوعی با صدای خود ضبط کنند.
یک کارشناس می‌گوید لحن، احساسات، و موزیکال بودن ویژگی‌هایی هستند که صداهای رایانه هنوز فاقد آن‌ها هستند.

سخنرانی تولید شده توسط رایانه به زودی ممکن است بسیار انسانی تر به نظر برسد.

سازنده قطعات رایانه NVIDIA اخیراً از ابزارهایی رونمایی کرده است که می توانند صدای گفتار طبیعی را با اجازه دادن به شما برای آموزش هوش مصنوعی با صدای خود ضبط کنند.این نرم افزار همچنین می تواند کلمات یک گوینده را با استفاده از صدای شخص دیگر ارائه دهد. این بخشی از یک فشار رو به رشد برای واقعی‌تر کردن گفتار رایانه‌ای است.

مایکل زاگورسک، مدیر عامل شرکت تشخیص گفتار SoundHound "فناوری پیشرفته هوش مصنوعی صوتی به کاربران امکان می دهد به طور طبیعی صحبت کنند، بسیاری از سوالات را در یک جمله ترکیب می کند و نیازی به تکرار مداوم جزئیات از پرس و جو اصلی را از بین می برد." ، در یک مصاحبه ایمیلی به Lifewire گفت.

«افزودن چندین زبان، که اکنون در اکثر پلتفرم‌های هوش مصنوعی صوتی موجود است، دستیارهای صوتی دیجیتال را در مناطق جغرافیایی بیشتر و برای جمعیت‌های بیشتری قابل دسترس می‌کند.»

Robospeech Rising

Amazon's Alexa و Apple's Siri صدایی بسیار بهتر از سخنرانی رایانه ای حتی یک دهه پیش دارند، اما به این زودی با صدای واقعی انسان اشتباه نخواهند شد.

برای اینکه گفتار مصنوعی طبیعی تر به نظر برسد، تیم تحقیقاتی تبدیل متن به گفتار NVIDIA مدل RAD-TTS را توسعه داد. این سیستم به افراد اجازه می‌دهد تا مدل تبدیل متن به گفتار (TTS) را با صدای خود، از جمله سرعت، تونالیته، صدا و سایر عوامل آموزش دهند.

این شرکت از مدل جدید خود برای ساخت روایت صوتی با صدای مکالمه بیشتر برای مجموعه ویدیویی I Am AI خود استفاده کرد.

با این رابط، تهیه کننده ویدیوی ما می تواند خود را در حال خواندن فیلمنامه ویدیو ضبط کند و سپس از مدل هوش مصنوعی برای تبدیل گفتار خود به صدای راوی زن استفاده کند. با استفاده از این روایت پایه، تهیه کننده می تواند هوش مصنوعی را مانند انویدیا در وب‌سایت خود نوشت: «انویدیا» در وب‌سایت خود نوشت: صداپیشه، گفتار ترکیب‌شده را برای تأکید بر کلمات خاص تغییر می‌دهد و سرعت روایت را برای بیان بهتر لحن ویدیو تغییر می‌دهد.

سخت تر از آن چیزی که به نظر می رسد

به گفته کارشناسان، طبیعی کردن گفتار تولید شده توسط رایانه یک مشکل دشوار است.

ناظم راگیموف، مدیرعامل شرکت نرم‌افزار متن به گفتار Kukarella، در مصاحبه‌ای با لایف‌وایر گفت: "شما باید صدها ساعت از صدای کسی را ضبط کنید تا نسخه کامپیوتری آن را بسازید." "و ضبط باید کیفیت بالایی داشته باشد و در یک استودیو حرفه ای ضبط شده باشد.هرچه ساعت‌های بیشتری از گفتار با کیفیت بارگیری و پردازش شود، نتیجه بهتری حاصل می‌شود."

متن به گفتار را می توان در بازی، برای کمک به افراد دارای ناتوانی صوتی یا کمک به کاربران برای ترجمه بین زبان ها با صدای خود استفاده کرد.

راگیموف گفتآهنگ، احساسات و موزیکال بودن ویژگی هایی هستند که صداهای رایانه هنوز فاقد آن هستند.

اگر هوش مصنوعی بتواند این پیوندهای گمشده را اضافه کند، گفتار تولید شده توسط رایانه "از صدای بازیگران واقعی قابل تشخیص نیست". "این کار در حال انجام است. صداهای دیگر می توانند با مجریان رادیو رقابت کنند. به زودی صداهایی را خواهید دید که می توانند بخوانند و کتاب های صوتی بخوانند."

فناوری گفتار در طیف گسترده‌ای از کسب‌وکارها محبوب‌تر می‌شود.

زاگورسک گفت: «صنعت خودرو اخیراً از هوش مصنوعی صوتی به عنوان راهی برای ایجاد تجربه‌های رانندگی ایمن‌تر و مرتبط‌تر استفاده کرده است.

"از آن زمان، دستیارهای صوتی به طور فزاینده ای در همه جا حاضر شده اند، زیرا برندها به دنبال راه هایی برای بهبود تجربیات مشتری و پاسخگویی به تقاضا برای روش های ساده تر، ایمن تر، راحت تر، کارآمدتر و بهداشتی تر برای تعامل با محصولات و خدمات خود هستند."

معمولاً، هوش مصنوعی صوتی، درخواست‌ها را در یک فرآیند دو مرحله‌ای به پاسخ‌ها تبدیل می‌کند که با رونویسی گفتار به متن با استفاده از تشخیص خودکار گفتار (ASR) و سپس تغذیه آن متن به یک مدل درک زبان طبیعی (NLU) آغاز می‌شود.

رویکرد SoundHound این دو مرحله را در یک فرآیند برای ردیابی گفتار در زمان واقعی ترکیب می کند. این شرکت ادعا می‌کند که این تکنیک به دستیاران صوتی اجازه می‌دهد تا معنای درخواست‌های کاربر را حتی قبل از اینکه صحبتش تمام شود، درک کنند.

پیشرفت‌های آتی در گفتار رایانه، از جمله در دسترس بودن انواع گزینه‌های اتصال از تنها تعبیه‌شده (بدون نیاز به اتصال ابری) تا هیبریدی (تعریف شده پلاس ابری) و فقط ابری «انتخاب بیشتری را به شرکت‌ها در سراسر صنایع می‌دهد. از نظر هزینه، حریم خصوصی و در دسترس بودن قدرت پردازش، زاگورسک گفت.

NVIDIA گفت مدل‌های هوش مصنوعی خبری آن فراتر از صداگذاری است.

"متن به گفتار را می توان در بازی، برای کمک به افراد دارای ناتوانی صوتی یا کمک به کاربران برای ترجمه بین زبان ها با صدای خود استفاده کرد." حتی می‌تواند اجرای خوانندگان نمادین را بازسازی کند، نه تنها با ملودی یک آهنگ بلکه با بیان احساسی پشت آواز همخوانی دارد.»