Qwen-Image

Qwen-Image

Noticias y novedades

Qwen-Image es un nuevo modelo de IA que ha logrado lo inaudito: incrustar texto en las imágenes increíbles que genera

Los mejores modelos de IA de OpenAI, Google o Anthropic sufren cuando han de generar imágenes con texto. No es que sufran, es que ni pueden.

Más información: Gemini, la IA de Google, ya permite editar imágenes como ChatGPT: así se cambia el color de tu pelo o el estilo de tu foto

Publicada
Actualizada

Si ChatGPT nos sorprendió por las imágenes generadas estilo Ghibli en mayo, ahora Qwen-Image da un paso de gigante al lograr que un modelo de IA genere imágenes con texto incrustado.

Detrás del "Qwen Team" está Alibaba, el gigante de las compras online, que está consiguiendo poner los suficientes recursos para lograr hitos como el de Qwen-Image y así ubicar a este modelo de IA en una posición muy especial frente a otros.

Y no solo porque sea open source, al igual que los dos nuevos modelos de razonamiento de OpenAI de hace horas, sino porque es capaz de renderizar texto en inglés y chino en las imágenes que genera desde un prompt de texto.

En un área donde los rivales simplemente sufren, Qwen-Image abre una nueva era de generación de imágenes, no solo porque podamos poner un bocadillo de texto a una ilustración de manga, sino porque abre la puerta a todo tipo de ilustraciones con texto que expliquen guías, tutoriales y más.

Al admitir tanto escrituras alfabéticas como logográficas, es un modelo hábil para gestionar todo tipo de tipografías complejas, diseños de múltiples líneas, semántica a nivel de párrafo y contenido bilingüe.

Gwen-image

Gwen-image

Lo que nos lleva a un modelo que se distingue por su capacidad para generar carteles de películas, diapositivas de presentaciones, escenas de escaparates e incluso infografías estilizadas y descriptivas.

Así podemos crear una ilustración en la que se muestren los distintos ejercicios de fuerza tanto de forma visual como descrita en texto o realizar una presentación de un diseño, materiales para una clase o todo tipo de contenido creativo.

Imagen generada con texto incrustado estilo Studio Ghibli

Imagen generada con texto incrustado estilo Studio Ghibli

Se puede acceder al modelo Qwen-Image desde su web y seleccionar "Image Generation" desde los botones que se encuentran bajo el campo de texto. Se crea el prompt y se introduce el texto entre comillas para que se genere la imagen.

Sobre todo es un paso importante porque es un modelo abierto sin límites, a diferencia de Midjourney que permite incrustar texto, pero sí que tiene límites en su uso.

Ilustración descriptiva con texto hecha por Gwen-Image

Ilustración descriptiva con texto hecha por Gwen-Image

El único detalle a tener en cuenta es que los prompts han de ser más descriptivos al tener que introducir el texto que ha de aparecer en cada uno de los renderizados como en este ejemplo: "At the very center, the title “Habits for Emotional Wellbeing” appears clearly, surrounded by a symmetrical floral pattern".

Aparte de generar imágenes con texto, Qwen-Image ofrece un rendimiento excepcional en la edición de imágenes al preservar tanto el significado semántico como el realismo visual.

Da soporte a varias operaciones entre las que se incluye la transferencia del estilo, adiciones, borrado, mejora de detalles, edición de texto e incluso la posibilidad de ajustar la pose de los personajes que aparecen en la imagen generada.

Desde su web se puede apreciar cómo es capaz de capturar el estilo de anime de Miyazaki (Studio Ghibli) y crear todo tipo de imágenes con texto. Otro de los ejemplos que da es el de la estantería de una librería con diversos libros y sus títulos con sus portadas.

Rendimiento de Gwen-Image comparado a otros modelos

Rendimiento de Gwen-Image comparado a otros modelos

Qwen-Image, según se puede leer desde el anuncio en su web, está distribuido bajo la licencia Apache 2.0 para el uso comercial y no comercial, la redistribución y la modificación, aunque se requiere la atribución y la inclusión del texto de la licencia para trabajos derivados.