Publicada

Tras recuperar terreno frente a ChatGPT, Google sigue sin respiro incluyendo más novedades a Gemini como la que plantea ahora al integrar "Screen Automation".

Google está trabajando en Gemini con el objetivo de que tome el control del móvil del usuario, y ahora se asoman algunos detalles de cómo funcionará la automatización de la pantalla.

9to5Google ha descubierto en la versión 17.4 de la beta de la app de Google una serie de líneas de código sobre la función "Realiza tareas con Gemini".

Esta nueva capacidad de Gemini tiene el nombre en clave "bonobo" y las líneas de código explican cómo "Gemini puede ayudar con tareas, hacer pedidos o reservar vuelos al usar la automatización de la pantalla en ciertas apps en el dispositivo".

El control que se refiere a la "automatización de la pantalla" del móvil ya aparece en la actualización Android 16 QPR3, que asienta las bases para que ciertas aplicaciones puedan usarse para estas tareas.

Google avisa de que "Gemini puede cometer errores" y que "Eres responsable de lo que haga en tu nombre, por lo que debes supervisarlo de cerca".

En cualquier momento se podrá detener al agente y retomar la tarea de forma manual, aunque la experiencia dista de ser la ideal al tener que estar revisando lo que un agente hace cuando podríamos hacerlo perfectamente nosotros.

Google también señala dos aspectos vitales para la privacidad: "Cuando Gemini interactúa con una aplicación, las capturas de pantalla son revisadas por revisores y se utilizan para mejorar los servicios de Google si la opción Actividad Guardada está activada".

El segundo es: "No introduzcas las credenciales o la información de pago en los chats de Gemini. Evita usar la automatización de pantalla para emergencias o tareas relacionadas con información sensible".

La función Likeness en Google Meet

La próxima aparición de Screen Automation se centraría en el uso de acciones comunes que no implican mucho riesgo como pedir comida a domicilio, aunque la automatización de un proceso pase por el uso de apps que atesoran la información de pago hará que muchos usuarios se piensen bien si merece la pena utilizarla.

En la beta aparece también una importante funcionalidad llamada "Likeness" bajo el nombre en clave "wasabi".

Es justamente cómo Android XR se refiere a los avatares 3D que se usan actualmente en las llamadas de Google Meet. Y una línea de código asoma la posibilidad de acceder con un prompt en Gemini.

Veremos cómo quedan estas nuevas experiencias en las que nos quieren sumergir tanto Google como OpenAI en sus chatbots con IA y sus nuevas capacidades agénticas.