Todas las semanas se van ampliando las funcionalidades de la IA o aparecen nuevas apps centradas en una u otra tarea. Ahora llega el nuevo modelo Gemini 2.5 Computer Use para navegar por la web.
Google ha lanzado el previo del nuevo modelo de IA de Gemini para navegar e interactuar con la web a través del navegador.
Y aquí entran en escena las capacidades agénticas, o lo que se suele también llamar agentes IA, que pueden manejarse con las interfaces diseñadas para usuarios.
El modelo Gemini 2.5 Computer Use es multimodal, por lo que tiene capacidades de razonamiento y comprensión visual para analizar la solicitud del usuario y completar la tarea.
Puede desde rellenar campos de un formulario hasta enviar la solicitud, aunque uno de sus usos más útiles es para el desarrollo web, ya que permite hacer pruebas de interfaces cuando no hay disponible un API.
Ejemplo del uso del agente IA de Gemini 2.5 Computer Use
Otras versiones del modelo de IA, según The Verge, han sido utilizadas para funciones agénticas en el Modo IA de Search, que ya está disponible en España desde hoy mismo.
Al igual que en Project Mariner, un prototipo de investigación que usa agentes IA para completar tareas en un navegador al añadir artículos al carrito de compra basado en una lista de ingredientes.
Flujo de trabajo de Gemini 2.5 Computer Use
Lo que significa que estamos a nada de que con nuestra voz le digamos a Gemini en Home la lista de cosas o ingredientes que nos faltan para que se realice la compra directamente en la web de nuestro supermercado favorito.
Y el nuevo modelo de IA de Google se suma a las nuevas funciones que ayer mismo incluyó OpenAI en ChatGPT al incluir apps de terceros, o su continuo desarrollo en las funciones agénticas de ChatGPT.
Rendimiento de Gemini 2.5 Computer Use
De todas formas, Anthropic ya se adelantó con Claude el año pasado cuando desplegó una versión de su modelo de IA con la capacidad de usar el ordenador para ciertas tareas.
Sobre su rendimiento, el gigante tecnológico, desde su web, mantiene que su modelo de uso de ordenador supera a las alternativas principales en múltiples pruebas comparativas de la web y de móviles.
Cómo probar Gemini 2.5 Computer Use
Gemini 2.5 Computer Use, al revés que ChatGPT Agent y la herramienta de uso de ordenador de Anthropic, solo tiene acceso al navegador, y no al entorno completo de un ordenador.
En el enlace compartido por Google se pueden ver las distintas acciones disponibles. Son un total de 13 y se incluyen abrir la web o teclear texto al igual que arrastrar o soltar elementos.
De momento, Gemini 2.5 Computer Use está disponible para desarrolladores a través de Google AI Studio y Vertex AI, aunque hay una demo operativa en la que se puede ver cómo completa tareas, como juega a 2048 o explora noticias en Hacker News.
Este último ejemplo muestra cómo podemos ordenar al agente IA que vaya a esa web y encuentre los comentarios más polémicos del día, lea los tres comentarios top y resuma el debate.
Desde este enlace se puede hacer una consulta del precio de Repsol en bolsa y nos ofrece un resumen de los últimos 7 días, a lo que contestará que solo pudo encontrar la opción de 5 días, para hacer clic en ella y pasarnos el pequeño análisis.
