ChatGPT sigue a su ritmo y está siendo toda una herramienta para todo tipo de funciones. El impacto que ha hecho en muchos ámbitos de la sociedad en este año quedará para la historia y la idea de OpenAI, sus creadores, es que siga marcando nuevos hitos como su nueva y apasionante actualización: ahora ve, escucha y habla.
Amazon sorprendió la semana pasada con el anuncio de una 'Alexa' más inteligente gracias a la inclusión de la IA generativa. Si en estos meses las noticias han rondado por las capacidades de este tipo de IA generativa, también llevada a la generación de imágenes, ahora comienza otro tipo de carrera: asistentes con IA generativa que sean capaces de responder naturalmente tal como se hace desde el texto.
Hace unos minutos OpenAI ha anunciado el despliegue de las capacidades de imagen y voz en ChatGPT. Se ofrece así una nueva interacción más intuitiva y natural al permitir tener una conversación de voz o mostrar a ChatGPT de qué se está hablando. Se abre una experiencia totalmente nueva para abordar nuevas formas de entablar comunicación con la IA de OpenAI.
Ve, escucha y habla
Por ejemplo, se puede tomar una foto de un paisaje cuando se está viajando para pasársela a ChatGPT y así tener una conversación sobre los puntos de interés de la misma, o, cuando se esté en casa, hacer una foto al interior del frigorífico para que la IA muestre recetas que se pueden hacer con lo que se tiene en la nevera. O tomar una foto de un trabajo de los más peques en el que aparecen problemas matemáticos que la IA solucionará en segundos.
Ahora queda preguntarse por la disponibilidad de esta gran novedad de ChatGPT. OpenAI ha mencionado que la voz y las imágenes en ChatGPT están disponibles para los suscriptores de Plus y Enterprise en las dos próximas semanas. La voz sí llegará a la app de Android e iOS a la vez que las imágenes que se harán disponibles próximamente.
OpenAI muestra desde su web la gran capacidad en el habla de ChatGPT con distintos ejemplos. Incluso es capaz de entonar una poesía para dotarla de mayor expresividad. Hay hasta cinco disponibles desde su web para poder apreciar las diferencias entre la explicación de una receta, una historia, discurso, poema y explicación.
En el momento que esté disponible bajo esas suscripciones, se puede acceder en la app de Android e iOS a través de los ajustes y luego a nuevas características. Se activa la función, y se puede elegir la voz preferida entre cinco distintas desde la esquina superior derecha de la pantalla principal de la app. Esta nueva capacidad para la voz usa el nuevo modelo de 'text-to-speech' (texto a voz), que es capaz de generar voces humanas desde el texto y unos cuantos segundos de un ejemplo de una voz.
Para lograr los increíbles resultados que se pueden probar desde ya en su web, aunque estén en inglés, OpenAI ha colaborado con actores de voz profesionales para la creación de cada voz. La herramienta usada para el sistema de reconocimiento de voz es Whisper, una open-source que se encarga de transcribir la voz a texto.
Chatea con imágenes
Otra de las novedades de ChatGPT es su capacidad para comentar cualquier imagen o foto que se le suministre. Aquí los ejemplos para su uso son casi ilimitados, ya que puede desde solucionar un problema sobre la placa de la cocina, explorar lo que se tenga en la nevera o analizar problemas complejos. De hecho, incluso se puede usar la herramienta de dibujo para que ChatGPT se centre en esa parte de la imagen.
En la app para Android e iOS está presente esta funcionalidad desde el botón '+' para así hacer una foto con el móvil o tomar una de la galería. También ofrece la opción de subir varias imágenes para que ChatGPT las comente, o la herramienta dicha de dibujo. Aquí entra en juego GPT-3.5 y GPT-4 para entender las imágenes que se comparten y ambos son capaces de interpretar documentos, capturas de pantalla y fotografías, por lo que se abre una capacidad casi infinita con esta gran novedad de la IA generativa de OpenAI.
OpenAI aclara que la nueva tecnología de voz, capaz de crear voces sintéticas realistas en unos segundos, abre enormes posibilidades para la creatividad y aplicaciones enfocadas a la accesibilidad, pero también para un uso indebido de esta apasionante tecnología (y es que esta tecnología ya se usa para replicar voces de otros). Por lo que su uso estará basado en un caso en específico: el chat de voz. Incluso han colaborado con Spotify para utilizarla para su función de traducción de voz para podcasts. Es decir, que se traducirán al español y otros idiomas los podcasts en inglés de Spotify. Una novedad anunciada por la plataforma de streaming que llegará próximamente después de unas pruebas con una serie de podcasts en el idioma anglosajón.
Los nuevos desafíos
También, los modelos basados en la visión presentan un gran abanico de nuevos desafíos, desde 'alucinaciones' sobre personas a la interpretación de imágenes en dominios de alto riesgo (extremismo y competencia científica). OpenAI ha declarado que han realizado diversas pruebas para asegurarse que su uso sea responsable.
Otra de las grandes virtudes y soluciones que ofrece ahora ChatGPT es para la visión. Está trabajando con Be My Eyes, una app gratuita para móviles que ayuda a personas con problemas de visión para así entender sus usos y limitaciones. Gracias a este trabajo de investigación el equipo detrás de la IA generativa ha sido capaz de limitar el poder ChatGPT para analizar y hacer declaraciones directas sobre personas que pudiesen aparecer en el fondo de una foto.
De momento, OpenAI ha anunciado desde su web que la capacidad para transcribir la voz a texto funciona perfectamente en inglés, pero su rendimiento cae bastante en otros idiomas, sobre todo en aquellos que no están basados en lenguas romances. De hecho, avisa de que los usuarios que no hablen inglés mejor se esperen para usarlo correctamente, ya que puede generar confusión y una experiencia distinta.