Desarrollar los modelos de inteligencia artificial en nuestros días suele requerir un entrenamiento previo en función de conjuntos de datos con los que establecer patrones y reglas que guíen su funcionamiento ulterior. Es el mantra de esta tecnología, pero esta preparación exige un gran esfuerzo en términos de recursos computacionales y de tiempo, en tanto que esa información debe ser ingente y ha de ser etiquetada y tratada con anterioridad.

Por ello, la siguiente frontera de la IA pasa por los modelos de aprendizaje autosupervisado. Se trata de modelos basados en energía para la predicción en presencia de incertidumbre, en los que los sistemas de inteligencia artificial aprovechan la estructura subyacente de los datos. Una suerte de IA con sentido común.

Quizás dicho de semejante forma sea algo denso. En el fondo no se trata de otra cosa que de crear sistemas que puedan aprender directamente de cualquier información que se les dé, ya sea texto, imágenes u otro tipo de datos. Ello sin depender de conjuntos de datos cuidadosamente seleccionados y etiquetados para enseñarles cómo reconocer objetos en una foto o interpretar un bloque de texto.

Pongamos un ejemplo partiendo del área que va más avanzada en este aprendizaje no supervisado: el procesamiento del lenguaje natural. En estas lides, podemos ocultar parte de una oración y predecir las palabras ocultas de las palabras restantes. Dado que el aprendizaje autocontrolado utiliza la estructura de los datos en sí, puede hacer uso de una variedad de señales en todas las modalidades coexistentes (por ejemplo, vídeo y audio) y en grandes conjuntos de datos, todo ello sin depender de etiquetas.

Ahora el reto está en llevar esta inteligencia artificial de nueva generación a otros campos, como la visión artificial (o visión por computadora, si lo prefieren). 

En los últimos 18 meses hemos visto notables avances en este sentido, con métodos como DeeperCluster, MoCo, PIRL, ClusterFit, MoCo-v2, SwAV, SimSiam y Barlow Twins. Desde grandes compañías como Google hasta varias instituciones académicas también han hecho muchas contribuciones al campo, con modelos como SimCLR y BYOL.

La última en unirse a la fiesta es Facebook, que acaba de presentar su proyecto de investigación SEER (SElf-supERvised). En este caso, la multinacional ha logrado preentrenar una gran red de 1.000 millones de imágenes aleatorias sin etiquetar en un entorno complejo del mundo real.

El sistema de Facebook analiza miles de millones de parámetros que puede aprender de cualquier grupo aleatorio de imágenes en internet, sin necesidad de una preparación cuidadosa y etiquetado.

Precisión del 84,2%

Después de preentrenarse en las ya mentadas 1.000 millones de imágenes públicas de Instagram al azar, sin etiquetar, SEER superó a los sistemas autosupervisados más avanzados, alcanzando el 84,2% de precisión. Pero lo más relevante es que SEER también superó a los modelos supervisados de última generación en tareas como la detección de objetos o la segmentación y clasificación de imágenes.

Incluso cuando el sistema se entrena con solo el 10% de los ejemplos de ImageNet, SEER todavía alcanzó una precisión superior del 77,9% en el conjunto de datos completo. Y cuando se entrena con solo el 1% de los ejemplos de esta base, SEER logró una precisión superior del 60,5%.

"El aprendizaje autosupervisado tiene increíbles ramificaciones para el futuro de la visión por computadora. La eliminación de la necesidad de anotaciones y metadatos humanos permite a la comunidad trabajar con conjuntos de datos más grandes y más diversos, aprender de imágenes públicas aleatorias y mitigar potencialmente algunos de los sesgos que entran en juego con la curación de datos", explican desde Facebook.

Además, el aprendizaje autosupervisado también puede ayudar a especializar modelos en dominios donde tenemos imágenes o metadatos limitados, como imágenes médicas. "Y sin mano de obra necesaria por adelantado para el etiquetado, los modelos se pueden crear e implementar más rápidamente, lo que permite respuestas más rápidas y precisas a situaciones en rápida evolución".

Las dificultades de la imagen

El uso del aprendizaje autosupervisado es prometedor en el campo de la visión artificial, pero no es tan sencillo de implantar como pueda serlo en el terreno del lenguaje.

Con el texto, los conceptos semánticos se dividen en palabras discretas. Pero con las imágenes, el algoritmo debe decidir qué píxel pertenece a qué concepto. Además, el mismo concepto variará mucho entre imágenes, como con un gato en diferentes poses o visto desde diferentes ángulos. Por ello, los sistemas han de mirar muchas imágenes para comprender la variación en torno a un solo concepto.

De hecho, Facebook ya venía usando el aprendizaje autosupervisado en temas relacionados con el texto. Es el caso de sus sistemas de traducción que funcionan con lenguajes de bajos recursos y conectan a personas de todo el mundo, como el sistema M2M-100 capaz de traducir directamente texto a y desde 100 idiomas.

El camino en el tratamiento de imágenes hasta llegar aquí no ha sido, sin embargo, sencillo. Por lo pronto, era necesario tener un algoritmo que pudiera aprender de un gran número de imágenes aleatorias sin metadatos o anotaciones. Y, por supuesto, también era clave contar con una red neuronal convolucional (ConvNet) lo suficientemente grande como para capturar y aprender todos los conceptos visuales de estos datos grandes y complejos.

El sistema de Facebook utiliza los fundamentos de otro modelo, SwAV, que utiliza la agrupación en clústeres online para dividir rápidamente imágenes con conceptos visuales similares y aprovechar sus similitudes. A ello se le suma el desarrollo de una biblioteca multiusos para el aprendizaje autosupervisado llamada VISSL.

Noticias relacionadas