رایانه های مجهز به هوش مصنوعی گوگل با تماشای ساعتها برنامه تلویزیونی یاد گرفتند که چگونه بهتر از انسانها صحبت های مجریان تلویزیونی را لب خوانی کنند. به گزارش نکست وب، محققان هوش مصنوعی گوگل در لندن با همکاری دانشمندان دانشگاه آکسفورد پیشرفته ترین نرم افزار لب خوانی جهان را ابداع کرده اند که با مشاهده تصاویر تلویزیونی قادر به درک مباحث طرح شده است.
محققان برای تکمیل این طرح هزاران ساعت برنامه تلویزیونی شبکه بی بی سی را در اختیار شبکه عصبی این نرم افزار گذاردند و به آن آموزش دادند که چگونه با تحلیل حرکات لب و دهان انسان ها صحبت ها را درک کند.
دقت این نرم افزار در آزمایش های اولیه 46.8 درصد بوده و بنابراین برای تکمیل آن هنوز زمان قابل توجهی نیاز است. البته دقت این نرم افزار چهار برابر بیشتر از یک لب خوان حرفه ای بوده است. این فرد با مشاهده ویدئوهای پخش شده تنها توانست با دقت 12.4 درصد گفتار مختلف را درک کند.
پیش از این اساتید دانشگاه آکسفورد از روش مشابهی برای طراحی یک برنامه موبایلی لب خوان به نام LipNet استفاده کرده بودند که می توانست با دقت 90 درصد محتوای برخی ویدئوهای ضبط شده داوطلبان را درک کند. اما نرم افزار جدید که Watch, Listen, Attend, and Spell نام گرفته قادر به لب خوانی از انواع ویدئوها بدون محدودیت است.