موارد مهم
- محققان می گویند که می توانند به هوش مصنوعی آموزش دهند تا با تماشا و گوش دادن به ویدیوها برچسب گذاری کند.
- سیستم هوش مصنوعی یاد می گیرد که داده ها را برای گرفتن مفاهیم مشترک بین داده های دیداری و صوتی نشان دهد.
-
این بخشی از تلاش برای آموزش هوش مصنوعی برای درک مفاهیمی است که انسانها در یادگیری آنها مشکلی ندارند اما درک آنها برای رایانه ها دشوار است.
یک سیستم هوش مصنوعی جدید (AI) می تواند ویدیوهای شما را تماشا و گوش دهد و چیزهایی را که در حال رخ دادن هستند برچسب گذاری کند.
محققان MIT تکنیکی را توسعه داده اند که به هوش مصنوعی می آموزد تا اقدامات مشترک بین ویدئو و صدا را ثبت کند.به عنوان مثال، روش آنها می تواند درک کند که عمل گریه نوزاد در یک ویدیو مربوط به کلمه گفتاری "گریه کردن" در یک کلیپ صوتی است. این بخشی از تلاش برای آموزش هوش مصنوعی است که چگونه مفاهیمی را درک کند که انسان در یادگیری آنها مشکلی ندارد، اما کامپیوترها به سختی درک میکنند.
فیل ویندر، کارشناس هوش مصنوعی، در مصاحبه ایمیلی با Lifewire گفت: "الگوی رایج یادگیری، یادگیری تحت نظارت، زمانی به خوبی کار می کند که مجموعه داده هایی داشته باشید که به خوبی توضیح داده شده و کامل شوند." "متاسفانه مجموعه داده ها به ندرت کامل می شوند زیرا دنیای واقعی عادت بدی برای ارائه موقعیت های جدید دارد."
هوش مصنوعی هوشمند
رایانه ها در تشخیص سناریوهای روزمره مشکل دارند زیرا آنها به جای صدا و تصویر مانند انسان ها به خرد کردن داده ها نیاز دارند. وقتی یک ماشین عکسی را می بیند، باید آن عکس را در داده هایی که می تواند برای انجام کاری مانند طبقه بندی تصویر استفاده کند، رمزگذاری کند. وقتی ورودیها در قالبهای مختلف مانند ویدیوها، کلیپهای صوتی و تصاویر ارائه میشوند، هوش مصنوعی ممکن است دچار مشکل شود.
الکساندر لیو، محقق MIT و اولین نویسنده مقاله در مورد این موضوع، گفت: "چالش اصلی در اینجا این است که چگونه یک ماشین میتواند این روشهای مختلف را هماهنگ کند؟ به عنوان انسان، این برای ما آسان است." انتشار خبر "ما یک ماشین را می بینیم و سپس صدای ماشینی را می شنویم که در حال رانندگی است، و می دانیم که اینها یکسان هستند. اما برای یادگیری ماشینی، این کار چندان ساده نیست."
تیم لیو یک تکنیک هوش مصنوعی را توسعه دادند که به گفته آنها می آموزد داده ها را نمایش دهد تا مفاهیم مشترک بین داده های دیداری و صوتی را به تصویر بکشد. با استفاده از این دانش، مدل یادگیری ماشینی آنها میتواند مکان یک عمل خاص در یک ویدیو را شناسایی کند و آن را برچسبگذاری کند.
مدل جدید دادههای خام، مانند ویدیوها و زیرنویسهای متنی مربوط به آنها را میگیرد و با استخراج ویژگیها یا مشاهدات درباره اشیاء و اقدامات در ویدیو، آنها را رمزگذاری میکند. سپس آن نقاط داده را در یک شبکه، که به عنوان فضای جاسازی شناخته می شود، نقشه برداری می کند. مدل داده های مشابه را به عنوان نقاط منفرد در شبکه با هم خوشه می کند. هر یک از این نقاط داده یا بردارها با یک کلمه جداگانه نشان داده می شوند.
مثلاً، یک کلیپ ویدیویی از شخصی که در حال شعبده بازی است، ممکن است به بردار با برچسب "دحور بازی" نگاشت شود.
محققان این مدل را طوری طراحی کردند که فقط می تواند از 1000 کلمه برای برچسب زدن بردارها استفاده کند. مدل میتواند تصمیم بگیرد که کدام اقدامات یا مفاهیم را میخواهد در یک بردار رمزگذاری کند، اما فقط میتواند از 1000 بردار استفاده کند. مدل کلماتی را انتخاب میکند که فکر میکند بهترین دادهها را نشان میدهند.
"اگر ویدیویی در مورد خوک ها وجود دارد، مدل ممکن است کلمه "خوک" را به یکی از 1000 بردار اختصاص دهد. سپس، اگر مدل از فردی بشنود که کلمه "خوک" را در یک کلیپ صوتی می گوید، لیو توضیح داد که هنوز باید از همان بردار برای رمزگذاری استفاده کند.
ویدئوهای شما، رمزگشایی شده
ماریان بسزدس، رئیس تحقیق و توسعه در شرکت بیومتریک Innovatrics در مصاحبه ایمیلی به Lifewire گفت:سیستمهای برچسبگذاری بهتر مانند آنچه توسط MIT توسعه داده شده است میتواند به کاهش سوگیری در هوش مصنوعی کمک کند. Beszedes پیشنهاد داد که صنعت داده می تواند سیستم های هوش مصنوعی را از منظر فرآیند تولید مشاهده کند.
بسزدس گفت: «سیستمها دادههای خام را به عنوان ورودی (مواد خام) میپذیرند، آنها را پیش پردازش میکنند، میخورند، تصمیم میگیرند یا پیشبینی میکنند و تجزیه و تحلیل خروجی (کالاهای تمامشده). "ما این جریان فرآیند را "کارخانه داده" می نامیم و مانند سایر فرآیندهای تولیدی، باید تحت کنترل های کیفی باشد. صنعت داده باید با تعصب هوش مصنوعی به عنوان یک مشکل کیفیت برخورد کند.
"از دیدگاه مصرف کننده، داده های دارای برچسب اشتباه به عنوان مثال جستجوی آنلاین برای تصاویر/فیلم های خاص را دشوارتر می کند." "با هوش مصنوعی توسعه یافته، می توانید برچسب گذاری را به صورت خودکار، بسیار سریعتر و خنثی تر از برچسب زدن دستی انجام دهید."
اما مدل MIT هنوز محدودیت هایی دارد. لیو گفت: برای اولین بار، تحقیقات آنها بر روی داده های دو منبع در یک زمان متمرکز بود، اما در دنیای واقعی، انسان ها به طور همزمان با انواع مختلفی از اطلاعات روبرو می شوند.
"و ما می دانیم که 1000 کلمه روی این نوع مجموعه داده کار می کند، اما نمی دانیم که آیا می توان آن را به یک مشکل دنیای واقعی تعمیم داد یا خیر."
محققان MIT می گویند تکنیک جدید آنها از بسیاری از مدل های مشابه بهتر است. اگر بتوان هوش مصنوعی را برای درک ویدیوها آموزش دید، ممکن است در نهایت بتوانید از تماشای ویدیوهای تعطیلات دوستان خود صرف نظر کنید و به جای آن یک گزارش تولید شده توسط رایانه دریافت کنید.