به زودی، ممکن است ندانید دارید با رایانه صحبت می کنید

فهرست مطالب:

به زودی، ممکن است ندانید دارید با رایانه صحبت می کنید
به زودی، ممکن است ندانید دارید با رایانه صحبت می کنید
Anonim

موارد مهم

  • به سرعت به روزی نزدیک می شود که نمی توانید گفتار تولید شده توسط رایانه را از واقعیت تشخیص دهید.
  • Google اخیراً از LaMDA رونمایی کرده است، مدلی که می تواند مکالمات طبیعی بیشتری را امکان پذیر کند.
  • تولید گفتار شبیه انسان نیز به مقدار زیادی قدرت پردازش نیاز دارد.
Image
Image

در حال حاضر، تشخیص اینکه چه زمانی با رایانه صحبت می کنید آسان است، اما به لطف پیشرفت های اخیر در هوش مصنوعی ممکن است به زودی تغییر کند.

Google اخیراً از LaMDA رونمایی کرده است، یک مدل آزمایشی که این شرکت ادعا می کند می تواند توانایی دستیارهای هوش مصنوعی مکالمه ای خود را تقویت کند و امکان مکالمات طبیعی تری را فراهم کند. LaMDA قصد دارد در نهایت تقریباً در مورد هر چیزی بدون هیچ گونه آموزش قبلی به طور عادی صحبت کند.

این یکی از تعداد فزاینده پروژه های هوش مصنوعی است که می تواند شما را به این فکر وادار کند که آیا با یک انسان صحبت می کنید.

جیمز کاپلان، مدیر عامل MeetKai، یک دستیار صوتی و جستجوی مجازی هوش مصنوعی مکالمه‌ای، تخمین من این است که در 12 ماه آینده، کاربران با این صداهای جدید و احساسی‌تر آشنا شوند و به آنها عادت کنند. موتور، در یک مصاحبه ایمیلی گفت.

"وقتی این اتفاق بیفتد، گفتار سنتز شده امروز برای کاربران مانند گفتار اوایل دهه 2000 برای ما امروز به نظر می رسد."

دستیارهای صوتی با کاراکتر

LaMDA Google بر روی Transformer ساخته شده است، یک معماری شبکه عصبی که توسط Google Research اختراع شده است. برخلاف سایر مدل‌های زبان، LaMDA Google بر روی گفتگوی واقعی آموزش دیده است.

الی کالینز از Google در یک پست وبلاگ نوشت: بخشی از چالش ایجاد سخنرانی هوش مصنوعی با صدای طبیعی، ماهیت باز مکالمات است.

Image
Image

"گپ با یک دوست در مورد یک برنامه تلویزیونی می تواند به بحث در مورد کشوری تبدیل شود که برنامه در آن فیلمبرداری شده است، قبل از اینکه به بحث در مورد بهترین غذاهای منطقه ای آن کشور بپردازیم."

چیزها با گفتار ربات به سرعت پیش می روند. اریک روزنبلوم، یک شریک مدیریتی در Tsingyuan Ventures، که روی هوش مصنوعی محاوره‌ای سرمایه‌گذاری می‌کند، گفت که برخی از اساسی‌ترین مشکلات در گفتار به کمک رایانه تقریباً حل شده‌اند.

به عنوان مثال، میزان دقت در درک گفتار در حال حاضر در خدماتی مانند رونویسی انجام شده توسط نرم افزار Otter.ai یا یادداشت های پزشکی که توسط DeepScribe گرفته شده است بسیار بالا است.

«هرچند مرز بعدی بسیار دشوارتر است،» او افزود.

"حفظ درک زمینه، که مشکلی فراتر از پردازش زبان طبیعی است، و همدلی، مانند کامپیوترهایی که در تعامل با انسان ها هستند، نیاز به درک ناامیدی، عصبانیت، بی حوصلگی و غیره دارند.روی هر دوی این موضوعات در حال کار است، اما هر دو تا حد رضایت بخشی فاصله دارند."

شبکه های عصبی کلیدهستند

برای تولید صداهایی شبیه زندگی، شرکت ها از فناوری مانند شبکه های عصبی عمیق، نوعی یادگیری ماشینی که داده ها را از طریق لایه ها طبقه بندی می کند، استفاده می کنند، مت مولدون، رئیس جمهور آمریکای شمالی در ReadSpeaker، شرکتی که نرم افزار متن به گفتار را توسعه می دهد، در یک مصاحبه ایمیلی گفت.

«این لایه‌ها سیگنال را اصلاح می‌کنند و آن را به طبقه‌بندی‌های پیچیده‌تر مرتب می‌کنند. "نتیجه گفتار مصنوعی است که به طرز عجیبی شبیه یک انسان است."

مولدون گفت:یکی دیگر از فناوری‌های در دست توسعه Prosody Transfer است که شامل ترکیب صدای یک صدای تبدیل متن به گفتار با سبک گفتاری صدای دیگری است. همچنین یادگیری انتقالی وجود دارد که میزان داده‌های آموزشی مورد نیاز برای تولید صدای تبدیل متن به گفتار عصبی جدید را کاهش می‌دهد.

کاپلان گفت که تولید گفتار شبیه انسان نیز به مقدار زیادی قدرت پردازش نیاز دارد. شرکت‌ها در حال توسعه تراشه‌های شتاب‌دهنده عصبی هستند که ماژول‌های سفارشی هستند که با پردازنده‌های معمولی کار می‌کنند.

«مرحله بعدی در این کار، قرار دادن این تراشه‌ها در سخت‌افزار کوچک‌تر است، همانطور که در حال حاضر این کار برای دوربین‌ها انجام می‌شود که هوش مصنوعی برای بینایی مورد نیاز است.» زمان زیادی نخواهد گذشت که این نوع قابلیت محاسباتی در خود هدفون در دسترس خواهد بود."

یکی از چالش‌های توسعه گفتار مبتنی بر هوش مصنوعی این است که همه افراد متفاوت صحبت می‌کنند، بنابراین رایانه‌ها معمولاً برای درک ما مشکل دارند.

"به لهجه جورجیا در مقابل بوستون در مقابل داکوتای شمالی فکر کنید، و اینکه آیا انگلیسی زبان اصلی شماست یا خیر." "با تفکر جهانی، انجام این کار برای تمام مناطق آلمان، چین و هند پرهزینه است، اما این بدان معنا نیست که این کار انجام نمی شود یا نمی توان."

توصیه شده: