هوش مصنوعی اکنون می تواند با تماشای ویدیوهای شما آنها را درک کند

فهرست مطالب:

2024 نویسنده: Abigail Brown | [email protected]. آخرین اصلاح شده: 2023-12-17 06:46

موارد مهم

محققان می گویند که می توانند به هوش مصنوعی آموزش دهند تا با تماشا و گوش دادن به ویدیوها برچسب گذاری کند.
سیستم هوش مصنوعی یاد می گیرد که داده ها را برای گرفتن مفاهیم مشترک بین داده های دیداری و صوتی نشان دهد.
این بخشی از تلاش برای آموزش هوش مصنوعی برای درک مفاهیمی است که انسانها در یادگیری آنها مشکلی ندارند اما درک آنها برای رایانه ها دشوار است.

یک سیستم هوش مصنوعی جدید (AI) می تواند ویدیوهای شما را تماشا و گوش دهد و چیزهایی را که در حال رخ دادن هستند برچسب گذاری کند.

محققان MIT تکنیکی را توسعه داده اند که به هوش مصنوعی می آموزد تا اقدامات مشترک بین ویدئو و صدا را ثبت کند.به عنوان مثال، روش آنها می تواند درک کند که عمل گریه نوزاد در یک ویدیو مربوط به کلمه گفتاری "گریه کردن" در یک کلیپ صوتی است. این بخشی از تلاش برای آموزش هوش مصنوعی است که چگونه مفاهیمی را درک کند که انسان در یادگیری آنها مشکلی ندارد، اما کامپیوترها به سختی درک می‌کنند.

فیل ویندر، کارشناس هوش مصنوعی، در مصاحبه ایمیلی با Lifewire گفت: "الگوی رایج یادگیری، یادگیری تحت نظارت، زمانی به خوبی کار می کند که مجموعه داده هایی داشته باشید که به خوبی توضیح داده شده و کامل شوند." "متاسفانه مجموعه داده ها به ندرت کامل می شوند زیرا دنیای واقعی عادت بدی برای ارائه موقعیت های جدید دارد."

هوش مصنوعی هوشمند

رایانه ها در تشخیص سناریوهای روزمره مشکل دارند زیرا آنها به جای صدا و تصویر مانند انسان ها به خرد کردن داده ها نیاز دارند. وقتی یک ماشین عکسی را می بیند، باید آن عکس را در داده هایی که می تواند برای انجام کاری مانند طبقه بندی تصویر استفاده کند، رمزگذاری کند. وقتی ورودی‌ها در قالب‌های مختلف مانند ویدیوها، کلیپ‌های صوتی و تصاویر ارائه می‌شوند، هوش مصنوعی ممکن است دچار مشکل شود.

الکساندر لیو، محقق MIT و اولین نویسنده مقاله در مورد این موضوع، گفت: "چالش اصلی در اینجا این است که چگونه یک ماشین می‌تواند این روش‌های مختلف را هماهنگ کند؟ به عنوان انسان، این برای ما آسان است." انتشار خبر "ما یک ماشین را می بینیم و سپس صدای ماشینی را می شنویم که در حال رانندگی است، و می دانیم که اینها یکسان هستند. اما برای یادگیری ماشینی، این کار چندان ساده نیست."

تیم لیو یک تکنیک هوش مصنوعی را توسعه دادند که به گفته آنها می آموزد داده ها را نمایش دهد تا مفاهیم مشترک بین داده های دیداری و صوتی را به تصویر بکشد. با استفاده از این دانش، مدل یادگیری ماشینی آن‌ها می‌تواند مکان یک عمل خاص در یک ویدیو را شناسایی کند و آن را برچسب‌گذاری کند.

مدل جدید داده‌های خام، مانند ویدیوها و زیرنویس‌های متنی مربوط به آن‌ها را می‌گیرد و با استخراج ویژگی‌ها یا مشاهدات درباره اشیاء و اقدامات در ویدیو، آنها را رمزگذاری می‌کند. سپس آن نقاط داده را در یک شبکه، که به عنوان فضای جاسازی شناخته می شود، نقشه برداری می کند. مدل داده های مشابه را به عنوان نقاط منفرد در شبکه با هم خوشه می کند. هر یک از این نقاط داده یا بردارها با یک کلمه جداگانه نشان داده می شوند.

مثلاً، یک کلیپ ویدیویی از شخصی که در حال شعبده بازی است، ممکن است به بردار با برچسب "دحور بازی" نگاشت شود.

محققان این مدل را طوری طراحی کردند که فقط می تواند از 1000 کلمه برای برچسب زدن بردارها استفاده کند. مدل می‌تواند تصمیم بگیرد که کدام اقدامات یا مفاهیم را می‌خواهد در یک بردار رمزگذاری کند، اما فقط می‌تواند از 1000 بردار استفاده کند. مدل کلماتی را انتخاب می‌کند که فکر می‌کند بهترین داده‌ها را نشان می‌دهند.

"اگر ویدیویی در مورد خوک ها وجود دارد، مدل ممکن است کلمه "خوک" را به یکی از 1000 بردار اختصاص دهد. سپس، اگر مدل از فردی بشنود که کلمه "خوک" را در یک کلیپ صوتی می گوید، لیو توضیح داد که هنوز باید از همان بردار برای رمزگذاری استفاده کند.

ویدئوهای شما، رمزگشایی شده

ماریان بسزدس، رئیس تحقیق و توسعه در شرکت بیومتریک Innovatrics در مصاحبه ایمیلی به Lifewire گفت:سیستم‌های برچسب‌گذاری بهتر مانند آنچه توسط MIT توسعه داده شده است می‌تواند به کاهش سوگیری در هوش مصنوعی کمک کند. Beszedes پیشنهاد داد که صنعت داده می تواند سیستم های هوش مصنوعی را از منظر فرآیند تولید مشاهده کند.

بسزدس گفت: «سیستم‌ها داده‌های خام را به عنوان ورودی (مواد خام) می‌پذیرند، آن‌ها را پیش پردازش می‌کنند، می‌خورند، تصمیم می‌گیرند یا پیش‌بینی می‌کنند و تجزیه و تحلیل خروجی (کالاهای تمام‌شده). "ما این جریان فرآیند را "کارخانه داده" می نامیم و مانند سایر فرآیندهای تولیدی، باید تحت کنترل های کیفی باشد. صنعت داده باید با تعصب هوش مصنوعی به عنوان یک مشکل کیفیت برخورد کند.

"از دیدگاه مصرف کننده، داده های دارای برچسب اشتباه به عنوان مثال جستجوی آنلاین برای تصاویر/فیلم های خاص را دشوارتر می کند." "با هوش مصنوعی توسعه یافته، می توانید برچسب گذاری را به صورت خودکار، بسیار سریعتر و خنثی تر از برچسب زدن دستی انجام دهید."

اما مدل MIT هنوز محدودیت هایی دارد. لیو گفت: برای اولین بار، تحقیقات آنها بر روی داده های دو منبع در یک زمان متمرکز بود، اما در دنیای واقعی، انسان ها به طور همزمان با انواع مختلفی از اطلاعات روبرو می شوند.

"و ما می دانیم که 1000 کلمه روی این نوع مجموعه داده کار می کند، اما نمی دانیم که آیا می توان آن را به یک مشکل دنیای واقعی تعمیم داد یا خیر."

محققان MIT می گویند تکنیک جدید آنها از بسیاری از مدل های مشابه بهتر است. اگر بتوان هوش مصنوعی را برای درک ویدیوها آموزش دید، ممکن است در نهایت بتوانید از تماشای ویدیوهای تعطیلات دوستان خود صرف نظر کنید و به جای آن یک گزارش تولید شده توسط رایانه دریافت کنید.