google inteligencia artificial diferenciar entre voces

google inteligencia artificial diferenciar entre voces

Omicrono

La IA de Google ya es capaz de reconocer tu voz entre una multitud

La Inteligencia Artificial de Google es capaz de reconocer una voz de entre una multitud, poniendo el foco en la persona a la que quiere escuchar.

13 abril, 2018 09:54

Noticias relacionadas

Una Inteligencia Artificial que reconozca la voz de una persona ya es algo tan común que no sorprende a casi nadie; se trata de una técnica totalmente dominada, pero Google acaba de hacer que volvamos a asombrarnos por un nuevo paso en su IA: ahora es capaz de reconocer voces de entre una multitud. En concreto, la Inteligencia Artificial aísla la voz que quiere escuchar y descarta el resto de sonidos.

Para nosotros ‘enfocar’ el sonido es sencillo, pues podemos poner énfasis en la escucha de un sonido proveniente de cierto punto del espacio, pero un micrófono no puede seleccionar de donde quiere escuchar. O hasta ahora, pues esto es justamente lo que el sistema de aprendizaje profundo de Google hace: seleccionar los sonidos y seleccionarlos para una escucha más profunda o descartarlos.

Google ya es capaz de diferenciar entre voces, y escuchar solo la que quiere

Esta nueva función de la IA de Google no solo es capaz de discernir entre una voz y el ruido de fondo, sino que directamente es capaz de diferencias entre dos voces que están hablando al mismo tiempo, solapándose, algo que incluso, a nosotros, nos cuesta. De hecho, puede hacer este trabajo mejor que nosotros.

Y como lo hace es muy sencillo: analiza los movimientos de la boca de las personas y en función de eso puede determinar qué frecuencia de sonido corresponde a cada persona. Una vez has discernido entre las distintas voces, puedes elegir en qué voz poner el foco. Y este método funciona muy bien, incluso cuando dos personas tratan de competir para taparse el uno al otro y que no se entienda nada:

En el vídeo superior, vemos incluso cómo es capaz de seleccionar la voz de una persona y anular la de la otra, reproduciendo exclusivamente la parte de la pista de audio proveniente de la persona seleccionada. Es decir, ya no solo es que sea capaz de diferenciarlas, sino que si quiere se puede deshacer de un conjunto de sonidos y ruidos para reproducir únicamente la voz de una persona.

Diferenciando voces con IA, ¿próximamente en Hangouts?

Esto es algo sencillo, entre comillas, pues si las voces de las personas tienen diferentes frecuencias, prácticamente el trabajo está hecho. Con la misma frecuencia y tono de voz, en cambio, también es capaz de discernir entre varias. Concretamente, fue probado con un vídeo montado donde vemos dos Sundar Pichai (el CEO de Google) hablando al mismo tiempo a la misma frecuencia, y el sistema es capaz de diferenciarlos.

¿Cómo se podría usar esto como utilidad real? Lejos de poder poner el foco en la voz de una persona de entre una multitud que camina por la calle (que se podría usar para esto, y de hecho, da miedo), esta función tiene interesantes aplicaciones dentro de las aplicaciones de videollamadas como Hangouts, donde en ocasiones varias personas participan en la conversación desde una sola cámara, pudiendo elegir la voz de la persona que exclusivamente queremos escuchar.