Inventan un ordenador con lectura de labios

Los científicos de Oxford afirman haber inventado un sistema de inteligencia artificial que puede leer los labios mejor que los humanos.

El sistema, que ha sido entrenado en miles de horas de programas de noticias de la BBC, ha sido desarrollado en colaboración con la división DeepMind IA de Google.

“Mira, asistir y hechizos”, ya que el sistema ha sido llamado, ahora se puede ver el habla silenciosa y obtener un 50% de las palabras correctas. Eso no puede sonar demasiado impresionante – pero cuando los investigadores suministraron los mismos clips a lectores de labios profesional, que tiene sólo el 12% de las palabras adecuadas.

Son Joon Chung, estudiante de doctorado en el Departamento de Ingeniería de la Universidad de Oxford, me explicó cuán difícil una tarea que es esto. “Palabras como estera, bate y pat todos tienen formas de la boca similares.” Es contexto que ayuda a su sistema – o incluso un lector de labios profesional – para entender lo que la palabra que se está hablando.

“Lo que hace el sistema”, explica Joon, “es aprender cosas que vienen juntos, en este caso, las formas de la boca y los personajes y lo que los personajes son probables próximos.”

La BBC suministra los investigadores de Oxford con clips de desayuno, programa de la BBC, el turno de preguntas y otros programas informativos de la BBC, con subtítulos en consonancia con los movimientos de los labios de los altavoces. A continuación, una red neuronal de imágenes de estado-of-the-art y el reconocimiento de voz se puso a trabajar para aprender a combinar leer los labios.

Después de examinar 118.000 sentencias en los clips, el sistema tiene ahora 17.500 palabras almacenadas en su vocabulario. Debido a que ha sido entrenado en el lenguaje de la prensa, ahora es bastante bueno en el entendimiento de que “ninguna” A menudo será seguido por “Ministro” y “europea” por “Unión”, pero mucho menos eficaz para el reconocimiento de palabras no habladas por los lectores de noticias .

Mucho más trabajo que hay que hacer antes de que el sistema se pone en práctica, pero la acción de caridad en la pérdida de audición es un entusiasta de este último avance.

“La tecnología AI lectura de labios sería capaz de mejorar la precisión y la velocidad de la voz en texto,” dice Jesal Vishnuram, gerente de investigación de la tecnología de la caridad. “Esto ayudaría a las personas con subtítulos en la televisión, y con problemas de audición en ambientes ruidosos.”

En este momento el sistema tiene limitaciones – que sólo puede funcionar con frases completas de vídeo grabado. “Queremos conseguir que funcione en tiempo real”, dice Chung Joon Hijo. “A medida que continúa viendo la televisión, se va a aprender.” Y dice que conseguir que el sistema funcione en vivo es un desafío menor que mejora su precisión.

Él ve todo tipo de usos potenciales para esta tecnología, desde ayudar a la gente a dictar instrucciones a sus teléfonos inteligentes en entornos ruidosos, al doblaje viejas películas mudas.

En muchos casos, el sistema de lectura de labios AI se podría utilizar para mejorar el rendimiento de otras formas de reconocimiento de voz.

Cuando los investigadores de Oxford y la caridad pérdida de audición de acuerdo, está en el hecho de que esto no es un caso en el AI se va a reemplazar a los humanos.

Profesionales lectores de labios no deben temer por sus puestos de trabajo – pero pueden esperar un momento en que la tecnología les ayuda a ser mucho más precisa.

Leave a Reply

Your email address will not be published. Required fields are marked *