موارد مهم
- متا از هوش مصنوعی برای ساخت برنامه هایی استفاده می کند که می توانند احساسات را در گفتار بیان کنند.
- تیم هوش مصنوعی این شرکت گفت که پیشرفت هایی در مدل سازی صداهای رسا، مانند خنده، خمیازه کشیدن، گریه و "چت خود به خودی" در زمان واقعی داشته است.
- هوش مصنوعی نیز برای تقویت بهبود در تشخیص گفتار استفاده می شود.
ممکن است به لطف قدرت هوش مصنوعی (AI) به زودی بتوانید چت طبیعی تری با رایانه خود داشته باشید.
Meta گفت که پیشرفت قابل توجهی در تلاش خود برای ایجاد سیستم های گفتاری واقعی تر ایجاد شده توسط هوش مصنوعی داشته است. تیم هوش مصنوعی این شرکت گفت که پیشرفت هایی در توانایی مدل سازی صداهای رسا، مانند خنده، خمیازه کشیدن، و گریه، علاوه بر "چت خود به خودی" در زمان واقعی داشته است.
"در هر مکالمه ای، افراد در یک پست جدید وبلاگی نوشتند: "در هر مکالمه ای، افراد مملو از سیگنال های غیرکلامی، مانند لحن ها، بیان احساسی، مکث ها، لهجه ها، ریتم ها - همه اینها برای تعاملات انسانی مهم هستند.". اما سیستمهای هوش مصنوعی امروزی نمیتوانند این سیگنالهای غنی و گویا را دریافت کنند، زیرا آنها فقط از متن نوشته شده یاد میگیرند، که آنچه را که ما میگوییم را نشان میدهد، اما نحوه گفتن ما را نشان نمیدهد.»
سخنرانی هوشمندانه
در پست وبلاگ، تیم Meta AI گفت که در حال کار برای غلبه بر محدودیتهای سیستمهای هوش مصنوعی سنتی هستند که نمیتوانند سیگنالهای غیرکلامی را در گفتار درک کنند، مانند لحن، عبارات احساسی، مکث، لهجهها و ریتمها..سیستمها متوقف میشوند زیرا فقط میتوانند از متن نوشته شده یاد بگیرند.
اما کار متا با تلاشهای قبلی متفاوت است زیرا مدلهای هوش مصنوعی آن میتوانند از مدلهای پردازش زبان طبیعی برای به تصویر کشیدن ماهیت کامل زبان گفتاری استفاده کنند. محققان متا میگویند که مدلهای جدید میتوانند به سیستمهای هوش مصنوعی اجازه دهند احساساتی را که میخواهند منتقل کنند، مانند کسالت یا کنایه.
"در آینده نزدیک، ما بر روی استفاده از تکنیکهای بدون متن برای ساخت برنامههای کاربردی پاییندستی مفید بدون نیاز به برچسبهای متنی با منابع فشرده یا سیستمهای تشخیص خودکار گفتار (ASR)، مانند پاسخ به سؤال (مثلاً «چطور است» تمرکز خواهیم کرد. آب و هوا؟)، " تیم در پست وبلاگ نوشت. "ما معتقدیم عروضی در گفتار می تواند به تجزیه بهتر یک جمله کمک کند، که به نوبه خود درک مقصود را تسهیل می کند و عملکرد پاسخگویی به سوال را بهبود می بخشد."
قدرت درک هوش مصنوعی
نه تنها رایانه ها در برقراری ارتباط بهتر می شوند، بلکه از هوش مصنوعی برای تقویت تشخیص گفتار نیز استفاده می شود.
رایان مونسوریت، مدیر ارشد فناوری AI Dynamics، در ایمیلی گفت: دانشمندان کامپیوتر حداقل از سال 1952 روی تشخیص گفتار کامپیوتری کار می کنند، زمانی که سه محقق آزمایشگاه بل سیستمی را ایجاد کردند که می توانست تک رقمی ها را تشخیص دهد. لایف وایر. در دهه 1990، سیستمهای تشخیص گفتار به صورت تجاری در دسترس بودند، اما هنوز هم نرخ خطای بالایی داشتند که از استفاده خارج از حوزههای کاربردی بسیار خاص مانند مراقبتهای بهداشتی جلوگیری میکرد.
مونسوریت گفت: «اکنون که مدلهای یادگیری عمیق به مدلهای گروهی (مانند مدلهای مایکروسافت) امکان دستیابی به عملکرد فوقانسانی در تشخیص گفتار را دادهاند، ما فناوری را داریم که ارتباط کلامی مستقل از سخنران را با رایانهها در مقیاس ممکن میکنیم. "مرحله بعدی شامل کاهش هزینه است تا همه کسانی که از Siri یا دستیارهای هوش مصنوعی گوگل استفاده می کنند به این سطح از تشخیص گفتار دسترسی داشته باشند."
آریل اوتنیک، مدیر ارشد درآمد و مدیر کل شرکت صوتی هوش مصنوعی Verbit.ai در مصاحبه ایمیلی به Lifewire گفت: AI برای تشخیص گفتار مفید است زیرا می تواند در طول زمان از طریق یادگیری بهبود یابد. برای مثال، Verbit ادعا میکند که فناوری هوش مصنوعی داخلی آن نویز پسزمینه و پژواکها را شناسایی و فیلتر میکند و بلندگوها را بدون توجه به لهجه آنها رونویسی میکند تا رونوشتها و زیرنویسهای دقیق و حرفهای از ویدیو و صدای ضبطشده و زنده ایجاد کند.
اما Utnik گفت که اکثر سیستم عامل های تشخیص گفتار فعلی فقط 75-80٪ دقیق هستند.
"هوش مصنوعی هرگز به طور کامل جایگزین انسان نخواهد شد، زیرا بررسی شخصی توسط رونویسکنندگان، تصحیحکنندگان و ویراستاران برای اطمینان از رونوشت نهایی با کیفیت بالا و دقت بالا ضروری است."
Sanjay Gupta، معاون رئیس جهانی توسعه محصول و شرکت در شرکت تشخیص صدا Mitek Systems، در ایمیلی گفت:تشخیص صدای بهتر نیز می تواند برای جلوگیری از هکرها مورد استفاده قرار گیرد.او افزود، تحقیقات نشان میدهد که طی دو سال، 20 درصد از تمام حملات موفقیتآمیز تصاحب حساب، از تقویت صدای مصنوعی استفاده میکنند.
"این بدان معناست که با پیچیدهتر شدن فناوری جعلی عمیق، ما باید همزمان امنیت پیشرفتهای ایجاد کنیم که بتواند با این تاکتیکها در کنار جعلیهای عمیق تصویر و ویدئو مبارزه کند. "مبارزه با جعل صدا به فناوری تشخیص زنده بودن نیاز دارد که می تواند بین صدای زنده و نسخه ضبط شده، مصنوعی یا تولید شده توسط رایانه تمایز قائل شود."
اصلاح 2022-05-04: املای نام Ryan Monsurate در بند 9 تصحیح شد.