
Fotomontaje inspirado en DeepSeek
DeepSeek R1 deja en ridículo a ChatGPT, Claude y Gemini: entra en el top 5 en rendimiento siendo una IA open source
SciArena, una plataforma colaborativa y abierta, ha puesto a prueba a los modelos de lenguaje mayor más actuales en el ámbito científico.
Más información: DeepSeek habría usado a Gemini de Google para entrenar a su nueva IA: su "pequeña" actualización ya levanta revuelo
La última actualización de DeepSeek volvió a dejar claro que un modelo de IA de código libre es capaz de luchar en un tú a tú con modelos cerrados. Y que DeepSeek R1-0528 esté entre los 5 modelos top en rendimiento, sigue siendo una pesadilla para OpenAI, Google y otras.
Un quebradero de cabeza, ya que la startup china aboga por un modelo que ofrece una experiencia sin límites, justo al revés que Claude 4 Opus u o3 de OpenAI, y un coste de su API que para grupos, asociaciones y pequeñas empresas es como maná caído del cielo.
Los últimos datos de rendimiento de los cinco modelos top los ha presentado SciArena, una plataforma colaborativa y abierta diseñada para evaluar modelos de inteligencia artificial en tareas relacionadas con la literatura científica.
Su objetivo es involucrar a la comunidad científica en la evaluación de modelos de lenguaje mayor (LLMs) en el ámbito científico y realizar evaluaciones que los benchmarks tradicionales no son capaces. Suelen ser limitados en escala y al poco están desactualizados.
Pionera en el dominio general por plataformas como ChatBot Arena, hace unos días presentó unas pruebas de las capacidades actuales de los LLMs de última generación, y el modelo más consistente es o3 de OpenAI, que ofrece un rendimiento top en todos los dominios científicos.

Top 5 modelos en rendimiento
Después aparece Claude 4 Opus, recientemente lanzado por Anthropic (disponible gratis aunque con limitaciones), y después Gemini 2.5 Pro para encontrarnos a continuación a DeepSeek R1-0528. El quinto es 04-mini (que se puede usar en la versión gratuita de Deep Research de ChatGPT).
Donde destaca DeepSeek es en ciencias naturales y aparece también en la gráfica de cinco modelos top de ingeniería tras o3, Claude 4 Opus y GPT 4-1.
Pero lo importante de estas pruebas es que un modelo de razonamiento open source es capaz de batirse en duelo con modelos cerrados que se usan en los modelos de negocio de OpenAI con ChatGPT, Anthropic con Claude o Gemini de Google.
Google restringe menos el uso de su IA, aunque se están generando dudas si lo puede hacer a cambio de los datos de los usuarios como sucedió hace poco con una de las últimas novedades de Gemini en Android.

En distintas áreas científicas
El mero hecho de aparecer en el top cinco de modelos de IA generativa es en sí todo un éxito y demuestra que su nivel de rendimiento es simplemente insano. Y se debe por estas razones:
- OpenAI, Google y Anthropic consumen recursos millonarios para entrenar sus modelos frente a un modelo sin el respaldo financiero de una gran empresa.
- Un modelo open source permite que investigadores y desarrolladores puedan estudiar su arquitectura, mejorarla y adaptarla.
- Modelos como DeepSeek-R1-0528 facilitan el acceso a IA más avanzada para instituciones educativas, pequeñas empresas y desarrolladores independientes que no pueden permitirse licencias caras.
- Adaptación del modelo a necesidades específicas con mejores resultados en nichos o aplicaciones muy especializadas, algo que los modelos comerciales no suelen permitir.
Que un modelo open source ofrezca un rendimiento excelente es un gran logro que pone en todo lo alto el poder de la colaboración abierta, la transparencia y la democratización de la inteligencia artificial.