موارد مهم
- به سرعت به روزی نزدیک می شود که نمی توانید گفتار تولید شده توسط رایانه را از واقعیت تشخیص دهید.
- Google اخیراً از LaMDA رونمایی کرده است، مدلی که می تواند مکالمات طبیعی بیشتری را امکان پذیر کند.
- تولید گفتار شبیه انسان نیز به مقدار زیادی قدرت پردازش نیاز دارد.
در حال حاضر، تشخیص اینکه چه زمانی با رایانه صحبت می کنید آسان است، اما به لطف پیشرفت های اخیر در هوش مصنوعی ممکن است به زودی تغییر کند.
Google اخیراً از LaMDA رونمایی کرده است، یک مدل آزمایشی که این شرکت ادعا می کند می تواند توانایی دستیارهای هوش مصنوعی مکالمه ای خود را تقویت کند و امکان مکالمات طبیعی تری را فراهم کند. LaMDA قصد دارد در نهایت تقریباً در مورد هر چیزی بدون هیچ گونه آموزش قبلی به طور عادی صحبت کند.
این یکی از تعداد فزاینده پروژه های هوش مصنوعی است که می تواند شما را به این فکر وادار کند که آیا با یک انسان صحبت می کنید.
جیمز کاپلان، مدیر عامل MeetKai، یک دستیار صوتی و جستجوی مجازی هوش مصنوعی مکالمهای، تخمین من این است که در 12 ماه آینده، کاربران با این صداهای جدید و احساسیتر آشنا شوند و به آنها عادت کنند. موتور، در یک مصاحبه ایمیلی گفت.
"وقتی این اتفاق بیفتد، گفتار سنتز شده امروز برای کاربران مانند گفتار اوایل دهه 2000 برای ما امروز به نظر می رسد."
دستیارهای صوتی با کاراکتر
LaMDA Google بر روی Transformer ساخته شده است، یک معماری شبکه عصبی که توسط Google Research اختراع شده است. برخلاف سایر مدلهای زبان، LaMDA Google بر روی گفتگوی واقعی آموزش دیده است.
الی کالینز از Google در یک پست وبلاگ نوشت: بخشی از چالش ایجاد سخنرانی هوش مصنوعی با صدای طبیعی، ماهیت باز مکالمات است.
"گپ با یک دوست در مورد یک برنامه تلویزیونی می تواند به بحث در مورد کشوری تبدیل شود که برنامه در آن فیلمبرداری شده است، قبل از اینکه به بحث در مورد بهترین غذاهای منطقه ای آن کشور بپردازیم."
چیزها با گفتار ربات به سرعت پیش می روند. اریک روزنبلوم، یک شریک مدیریتی در Tsingyuan Ventures، که روی هوش مصنوعی محاورهای سرمایهگذاری میکند، گفت که برخی از اساسیترین مشکلات در گفتار به کمک رایانه تقریباً حل شدهاند.
به عنوان مثال، میزان دقت در درک گفتار در حال حاضر در خدماتی مانند رونویسی انجام شده توسط نرم افزار Otter.ai یا یادداشت های پزشکی که توسط DeepScribe گرفته شده است بسیار بالا است.
«هرچند مرز بعدی بسیار دشوارتر است،» او افزود.
"حفظ درک زمینه، که مشکلی فراتر از پردازش زبان طبیعی است، و همدلی، مانند کامپیوترهایی که در تعامل با انسان ها هستند، نیاز به درک ناامیدی، عصبانیت، بی حوصلگی و غیره دارند.روی هر دوی این موضوعات در حال کار است، اما هر دو تا حد رضایت بخشی فاصله دارند."
شبکه های عصبی کلیدهستند
برای تولید صداهایی شبیه زندگی، شرکت ها از فناوری مانند شبکه های عصبی عمیق، نوعی یادگیری ماشینی که داده ها را از طریق لایه ها طبقه بندی می کند، استفاده می کنند، مت مولدون، رئیس جمهور آمریکای شمالی در ReadSpeaker، شرکتی که نرم افزار متن به گفتار را توسعه می دهد، در یک مصاحبه ایمیلی گفت.
«این لایهها سیگنال را اصلاح میکنند و آن را به طبقهبندیهای پیچیدهتر مرتب میکنند. "نتیجه گفتار مصنوعی است که به طرز عجیبی شبیه یک انسان است."
مولدون گفت:یکی دیگر از فناوریهای در دست توسعه Prosody Transfer است که شامل ترکیب صدای یک صدای تبدیل متن به گفتار با سبک گفتاری صدای دیگری است. همچنین یادگیری انتقالی وجود دارد که میزان دادههای آموزشی مورد نیاز برای تولید صدای تبدیل متن به گفتار عصبی جدید را کاهش میدهد.
کاپلان گفت که تولید گفتار شبیه انسان نیز به مقدار زیادی قدرت پردازش نیاز دارد. شرکتها در حال توسعه تراشههای شتابدهنده عصبی هستند که ماژولهای سفارشی هستند که با پردازندههای معمولی کار میکنند.
«مرحله بعدی در این کار، قرار دادن این تراشهها در سختافزار کوچکتر است، همانطور که در حال حاضر این کار برای دوربینها انجام میشود که هوش مصنوعی برای بینایی مورد نیاز است.» زمان زیادی نخواهد گذشت که این نوع قابلیت محاسباتی در خود هدفون در دسترس خواهد بود."
یکی از چالشهای توسعه گفتار مبتنی بر هوش مصنوعی این است که همه افراد متفاوت صحبت میکنند، بنابراین رایانهها معمولاً برای درک ما مشکل دارند.
"به لهجه جورجیا در مقابل بوستون در مقابل داکوتای شمالی فکر کنید، و اینکه آیا انگلیسی زبان اصلی شماست یا خیر." "با تفکر جهانی، انجام این کار برای تمام مناطق آلمان، چین و هند پرهزینه است، اما این بدان معنا نیست که این کار انجام نمی شود یا نمی توان."