Así funciona por dentro la tecnología de reconocimiento de imágenes de Google

Así funciona por dentro la tecnología de reconocimiento de imágenes de Google

Trucos

Así funciona por dentro la tecnología de reconocimiento de imágenes de Google

¿Alguna vez te has preguntado cómo es posible que Google Fotos sepa qué aparece en tus imágenes? Así funciona Cloud Vision.

2 junio, 2016 19:29

Cloud Vision (o Vision API) es una herramienta que Google pone en manos de los desarrolladores que quieran automatizar el análisis del contenido de cientos de miles de fotografías. También es la herramienta que lo sabe todo sobre nuestras fotografías subidas en Google Fotos, y es la herramienta responsable de identificar todos y cada uno de los objetos que protagonizan nuestras instantáneas.

La herramienta de Google es capaz de analizar millones de fotografías para reconocer los objetos que aparecen en todas y cada una de ellas

El reconocimiento de caras es solamente una muestra del potencial de Cloud Vision, la plataforma de reconocimiento de imágenes que Google pone a disposición no solamente de su aplicación de fotos, sino también a cualquier otra empresa que pueda necesitar dejar en manos de un ordenador el reconocimiento de miles de fotografías.

Pero, ¿cómo es posible que un ordenador sea capaz de interpretar por sí mismo el contenido de una imagen? ¿Qué información puede obtener la herramienta de Google a partir de una simple fotografía? Todo eso -y mucho más- nos lo resuelve Google en una demostración interactiva.

La demostración de Cloud Vision

Para dejar claro el potencial de su herramienta, Google ha puesto a disposición de cualquier persona una página web en la que podemos comprobar en primera persona cómo organiza Cloud Vision la información que extrae a partir de las fotografías.

La demostración está disponible en el siguiente enlace (para poder acceder necesitaréis estar navegando desde la versión de ordenador de Chrome):

Enlace de Cloud Vision Explorer

Dentro de esta página, lo que os encontraréis es una «galaxia» virtual en la que podéis navegar entre más de 80 mil fotografías que han sido procesadas por Cloud Vision. Utilizando la rueda del ratón os podéis desplazar entre las diferentes categorías de imágenes, y pulsando sobre alguna de las fotografías podéis visualizar la información que el sistema ha obtenido a partir de la imagen.

La API de Cloud Vision se puede contratar por precios que van desde 0,60 dólares por cada 1.000 fotografías analizadas

Google Fotos es la máxima representación de los avances que la compañía estadounidense ha logrado en materia de reconocimiento de fotografías a gran escala. Prueba a entrar en la aplicación y escribe en el buscador -por ejemplo- la palabra «coche»; ¿cómo es posible que se te muestren como resultado fotografías en las que aparece un coche, si tú nunca le has dicho a Google qué aparece en ellas? Está claro que, nos guste o no, la inteligencia artificial ha venido para quedarse.

Los objetos: análisis en profundidad

A la hora de analizar fotografías en las que aparecen objetos, Cloud Vision utiliza un sistema de porcentajes para determinar qué aparece en la imagen. En el ejemplo de una señal de tráfico, el sistema determina que lo que protagoniza la fotografía es una señal en un 94%, una señal de tráfico en un 90% y algo amarillo en un 85%.

Y toda esa información se consigue analizando la imagen a partir de un fichero (procedente de Wiki Commons) que no tenía absolutamente ninguna descripción adjunta. El sistema también reconoce el texto que aparece en las imágenes, aunque eso no debería sorprendernos teniendo en cuenta que Google Traductor ya dispone de esta función desde hace tiempo.

Las personas: reconocimiento rostro a rostro

Pero todavía más sorprendente resulta el funcionamiento del reconocimiento de rostros. Cada persona que aparece en una fotografía está perfectamente identificada en el sistema, y a cada rostro Cloud Vision le asigna un número que después sirve para clasificar el estado de ánimo de los protagonistas de la imagen.

Si una persona está triste, contenta o enfadada son algunas de las emociones que identifica la herramienta, así como también es capaz de reconocer la posición exacta de cada rostro.

Más información: Blog de Google Cloud Platform