مکالمه با رایانه شما ممکن است واقعی تر شود

فهرست مطالب:

2024 نویسنده: Abigail Brown | [email protected]. آخرین اصلاح شده: 2023-12-17 06:46

موارد مهم

متا از هوش مصنوعی برای ساخت برنامه هایی استفاده می کند که می توانند احساسات را در گفتار بیان کنند.
تیم هوش مصنوعی این شرکت گفت که پیشرفت هایی در مدل سازی صداهای رسا، مانند خنده، خمیازه کشیدن، گریه و "چت خود به خودی" در زمان واقعی داشته است.
هوش مصنوعی نیز برای تقویت بهبود در تشخیص گفتار استفاده می شود.

ممکن است به لطف قدرت هوش مصنوعی (AI) به زودی بتوانید چت طبیعی تری با رایانه خود داشته باشید.

Meta گفت که پیشرفت قابل توجهی در تلاش خود برای ایجاد سیستم های گفتاری واقعی تر ایجاد شده توسط هوش مصنوعی داشته است. تیم هوش مصنوعی این شرکت گفت که پیشرفت هایی در توانایی مدل سازی صداهای رسا، مانند خنده، خمیازه کشیدن، و گریه، علاوه بر "چت خود به خودی" در زمان واقعی داشته است.

"در هر مکالمه ای، افراد در یک پست جدید وبلاگی نوشتند: "در هر مکالمه ای، افراد مملو از سیگنال های غیرکلامی، مانند لحن ها، بیان احساسی، مکث ها، لهجه ها، ریتم ها - همه اینها برای تعاملات انسانی مهم هستند.". اما سیستم‌های هوش مصنوعی امروزی نمی‌توانند این سیگنال‌های غنی و گویا را دریافت کنند، زیرا آنها فقط از متن نوشته شده یاد می‌گیرند، که آنچه را که ما می‌گوییم را نشان می‌دهد، اما نحوه گفتن ما را نشان نمی‌دهد.»

سخنرانی هوشمندانه

در پست وبلاگ، تیم Meta AI گفت که در حال کار برای غلبه بر محدودیت‌های سیستم‌های هوش مصنوعی سنتی هستند که نمی‌توانند سیگنال‌های غیرکلامی را در گفتار درک کنند، مانند لحن، عبارات احساسی، مکث، لهجه‌ها و ریتم‌ها..سیستم‌ها متوقف می‌شوند زیرا فقط می‌توانند از متن نوشته شده یاد بگیرند.

اما کار متا با تلاش‌های قبلی متفاوت است زیرا مدل‌های هوش مصنوعی آن می‌توانند از مدل‌های پردازش زبان طبیعی برای به تصویر کشیدن ماهیت کامل زبان گفتاری استفاده کنند. محققان متا می‌گویند که مدل‌های جدید می‌توانند به سیستم‌های هوش مصنوعی اجازه دهند احساساتی را که می‌خواهند منتقل کنند، مانند کسالت یا کنایه.

"در آینده نزدیک، ما بر روی استفاده از تکنیک‌های بدون متن برای ساخت برنامه‌های کاربردی پایین‌دستی مفید بدون نیاز به برچسب‌های متنی با منابع فشرده یا سیستم‌های تشخیص خودکار گفتار (ASR)، مانند پاسخ به سؤال (مثلاً «چطور است» تمرکز خواهیم کرد. آب و هوا؟)، " تیم در پست وبلاگ نوشت. "ما معتقدیم عروضی در گفتار می تواند به تجزیه بهتر یک جمله کمک کند، که به نوبه خود درک مقصود را تسهیل می کند و عملکرد پاسخگویی به سوال را بهبود می بخشد."

قدرت درک هوش مصنوعی

نه تنها رایانه ها در برقراری ارتباط بهتر می شوند، بلکه از هوش مصنوعی برای تقویت تشخیص گفتار نیز استفاده می شود.

رایان مونسوریت، مدیر ارشد فناوری AI Dynamics، در ایمیلی گفت: دانشمندان کامپیوتر حداقل از سال 1952 روی تشخیص گفتار کامپیوتری کار می کنند، زمانی که سه محقق آزمایشگاه بل سیستمی را ایجاد کردند که می توانست تک رقمی ها را تشخیص دهد. لایف وایر. در دهه 1990، سیستم‌های تشخیص گفتار به صورت تجاری در دسترس بودند، اما هنوز هم نرخ خطای بالایی داشتند که از استفاده خارج از حوزه‌های کاربردی بسیار خاص مانند مراقبت‌های بهداشتی جلوگیری می‌کرد.

مونسوریت گفت: «اکنون که مدل‌های یادگیری عمیق به مدل‌های گروهی (مانند مدل‌های مایکروسافت) امکان دستیابی به عملکرد فوق‌انسانی در تشخیص گفتار را داده‌اند، ما فناوری را داریم که ارتباط کلامی مستقل از سخنران را با رایانه‌ها در مقیاس ممکن می‌کنیم. "مرحله بعدی شامل کاهش هزینه است تا همه کسانی که از Siri یا دستیارهای هوش مصنوعی گوگل استفاده می کنند به این سطح از تشخیص گفتار دسترسی داشته باشند."

آریل اوتنیک، مدیر ارشد درآمد و مدیر کل شرکت صوتی هوش مصنوعی Verbit.ai در مصاحبه ایمیلی به Lifewire گفت: AI برای تشخیص گفتار مفید است زیرا می تواند در طول زمان از طریق یادگیری بهبود یابد. برای مثال، Verbit ادعا می‌کند که فناوری هوش مصنوعی داخلی آن نویز پس‌زمینه و پژواک‌ها را شناسایی و فیلتر می‌کند و بلندگوها را بدون توجه به لهجه آن‌ها رونویسی می‌کند تا رونوشت‌ها و زیرنویس‌های دقیق و حرفه‌ای از ویدیو و صدای ضبط‌شده و زنده ایجاد کند.

اما Utnik گفت که اکثر سیستم عامل های تشخیص گفتار فعلی فقط 75-80٪ دقیق هستند.

"هوش مصنوعی هرگز به طور کامل جایگزین انسان نخواهد شد، زیرا بررسی شخصی توسط رونویس‌کنندگان، تصحیح‌کنندگان و ویراستاران برای اطمینان از رونوشت نهایی با کیفیت بالا و دقت بالا ضروری است."

Sanjay Gupta، معاون رئیس جهانی توسعه محصول و شرکت در شرکت تشخیص صدا Mitek Systems، در ایمیلی گفت:تشخیص صدای بهتر نیز می تواند برای جلوگیری از هکرها مورد استفاده قرار گیرد.او افزود، تحقیقات نشان می‌دهد که طی دو سال، 20 درصد از تمام حملات موفقیت‌آمیز تصاحب حساب، از تقویت صدای مصنوعی استفاده می‌کنند.

"این بدان معناست که با پیچیده‌تر شدن فناوری جعلی عمیق، ما باید همزمان امنیت پیشرفته‌ای ایجاد کنیم که بتواند با این تاکتیک‌ها در کنار جعلی‌های عمیق تصویر و ویدئو مبارزه کند. "مبارزه با جعل صدا به فناوری تشخیص زنده بودن نیاز دارد که می تواند بین صدای زنده و نسخه ضبط شده، مصنوعی یا تولید شده توسط رایانه تمایز قائل شود."

اصلاح 2022-05-04: املای نام Ryan Monsurate در بند 9 تصحیح شد.