
Janus Pro 7B
DeepSeek deja en ridículo a OpenAI con Janus Pro 7B, su IA de generación de imágenes que también las 'entiende'
La generación de imágenes con IA es otro de los frentes en los que están 'combatiendo' rivales como OpenAI, Google o la misma Midjourney.
Más información: Google deja a OpenAI en ridículo: su nueva IA para crear vídeos es impresionante y ya se puede empezar a usar.
En cuestión de días DeepSeek ha sido capaz de poner contra las cuerdas los modelos de negocio de OpenAI y Google al dejar claro que su LLM ofrece gran capacidad y no exige tantos recursos para ofrecer una experiencia que imita a la de ChatGPT, Claude o Gemini. Ahora se lanza a la generación de imágenes con IA con Janus Pro 7B, un modelo multimodal que destaca por su eficiencia y arquitectura.
El asistente de IA de DeepSeek también ha alcanzado al número uno de apps más descargadas en el país de OpenAI, así que los nervios están empezando a florecer en los gigantes tecnológicos estadounidenses que casi estaban luchando entre ellos por hacerse con esa cuota de mercado tan jugosa de los chatbots de inteligencia artificial y todas las experiencias que les rodean.
Janus-Pro-7B, en las pruebas llevadas a cabo por Rowan Cheung, sobrepasa en ciertos benchmarks, como GenEval y DPG-Bench, a DALL-E3 de OpenAI y Stable Diffusion. De hecho, el despliegue de Janus-Pro-7B y todo lo que ha generado DeepSeek de R1, ha generado que las acciones de NVIDIA cayeran en más del 17 %.
Una de las importantes hazañas de este nuevo modelo multimodal para imágenes es que puede marcar un nuevo estándar en el rendimiento de la inteligencia artificial. De hecho, según Investing, ahora la atención está centrada en la respuesta que han de dar sus competidores para resolver el nuevo paradigma que ha puesto Janus-Pro-7B sobre la mesa al igual que el chatbot de DeepSeek.
Si la IA de DeepSeek ha irrumpido por su gran eficiencia al no necesitar tantos recursos, Janus Pro 7B va por el mismo camino gracias a su innovador sistema de 'doble vía' para procesar imágenes. Para entender mejor su eficiencia, y entrando en lo técnico, es capaz de separar por un lado la codificación para la generación de imágenes y por otro la identificación de la imagen para su recreación.

Imágenes ejemplo del avance de Janus-Pro-7B El Androide Libre
Usa SigLIP-L como codificador visual para imágenes con una resolución de 384 x 384, y de momento está limitado en esta resolución para abrir la puerta a futuras innovaciones que le pongan a la misma altura que las soluciones de OpenAI y otros.
Y como se ha mencionado, y por lo que está destacando enormemente DeepSeek, es por su eficiencia. Janus-Pro-7B utiliza un tamaño compacto de 7.000 millones de parámetros, ofrece un rendimiento superior a modelos similares y específicos más grandes, y es código abierto bajo licencia MIT.

El Androide Libre
Este último punto hace que cualquier persona pueda usar, modificar y distribuir el código libremente e incluso con fines comerciales, a diferencia de la licencia DeepSeek que, aunque también es gratuita y comercial, no se puede utilizar con un fin militar o la generación de desinformación.
Construido sobre DeepSeek-LLM-7b-base, vía Xataka, se aprovecha de sus enormes capacidades para procesar el lenguaje al igual que la generación de imágenes, y gracias a su sistema de submuestreo de 16x, es capaz de mantener la eficiencia sin que empeore la calidad de sus generaciones.