La nueva TPU de Google, Ironwood, con el logotipo de Gemini

La nueva TPU de Google, Ironwood, con el logotipo de Gemini Google El Androide Libre

Noticias y novedades

La nube de Google lo apuesta todo por la IA: desde creación de vídeos con música a resumen en audio en Docs

Google presume de que Google Cloud es la única plataforma optimizada para IA, con la adopción de agentes y nuevas funciones.

Más información: Google responde a ChatGPT y actualiza el Modo IA de su buscador: ya resuelve consultas complejas sobre tus fotos

Publicada

Google ha cambiado para siempre. La compañía ya está centrada al 100% en la IA, para bien o para mal, y eso se está notando en absolutamente todos sus servicios y aplicaciones; es una apuesta que, por el momento, está teniendo éxito, especialmente con Gemini, el rival de ChatGPT.

Pero la apuesta de Google por la IA va mucho más allá de los servicios dirigidos al usuario final, y hoy hemos tenido una buena demostración de esto con el Google Cloud Next 25, el evento centrado en la plataforma en la nube de Google que en esta edición ha abrazado completamente la IA en todas sus ramas y capacidades.

No en vano, Google presume de que Google Cloud es la única plataforma optimizada para IA, que permite usar todo tipo de modelos, tanto los de la propia Google como modelos abiertos como Llama de Meta o Mistral a través de la plataforma para desarrolladores Vertex AI. Pero por supuesto, la adopción de Gemini, ahora en su versión 2.5, es la gran protagonista de las novedades, ya que es el modelo que permite desde diseñar aplicaciones, a asistir en el desarrollo del código fuente y generar pruebas automáticas.

Los agentes son la nueva tendencia en el sector, y como no podía ser de otra manera, Vertex AI se suma con nuevas maneras de gestionar ecosistemas multiagente. Recordemos que los agentes son sistemas autónomos que pueden realizar acciones sin intervención humana; por ejemplo, para automatizar tareas habituales. La gran novedad es el nuevo protocolo A2A (Agent2Agent), que permite la comunicación segura entre varios agentes a través de diferentes plataformas.

Vertex AI no sólo sirve para el desarrollo de aplicaciones y la creación de agentes, también se ha convertido en la única plataforma con modelos de generación multimedia capaz de crear vídeo, imágenes, voz y música. Para ello, Vertex AI ahora soporta el modelo Lyria de texto a música, que permite generar canciones y temas musicales en base a las sugerencias del usuario; además, adopta Veo 2 para vídeo, Chirp 3 para reconocimiento de habla en más de 100 idiomas, e Imagen 3 para generación de imágenes.

Google demostró estas capacidades creando un vídeo sobre un concierto, en el que todos los elementos estaban generados por IA, incluyendo la música de fondo. Lo interesante es que estos modelos son capaces de modificar elementos a gusto del usuario. Por ejemplo, si en uno de los vídeos generados aparece una persona de fondo, podemos indicar a la IA que la elimine y generará un nuevo vídeo, idéntico al anterior, pero sin ese elemento en concreto, algo que hasta ahora era muy difícil como sabe cualquiera que haya creado imágenes o vídeos por IA; por la propia naturaleza de la IA generativa, estos generan un resultado diferente en cada ocasión, pero los modelos de Google permiten trabajar con un mayor nivel de precisión. Google presume de que Vertex AI es la única plataforma que ofrece modelos de generación multimedia a través de todas las modalidades, lo que permite crear producciones completas empezando simplemente a partir de texto.

Google Workspace, la suite ofimática de la compañía, también ha recibido nuevas funciones basadas en IA, incluyendo funciones de audio en Google Docs; está inspirada en el gran éxito que ha tenido NotebookLM, una de las apps basadas en IA más populares de Google gracias a su función que permite crear podcasts de audio en base a documentos de texto.

De manera similar, los usuarios de Google Workspace podrán crear versiones de audio de sus documentos, o generar podcasts que resumen el contenido y se centran en los apartados más importantes. Google lo define como "una nueva manera de interactuar con el contenido" y estará disponible como alpha a lo largo de este trimestre.

Estas y otras funciones son posibles gracias al último gran avance de hardware de Google: Ironwood, definida como la primera TPU (unidad de procesamiento Tensor) de Google para la era de la inferencia. Se trata del acelerador más potente y escalable de Google hasta la fecha, y representa un cambio "significativo" en el desarrollo de IA y la infraestructura de la que depende. En vez de centrarse en modelos de IA "responsivos" que ofrecen información en tiempo real, apuesta por modelos "proactivos" como los agentes de IA, que obtienen y generan datos por su cuenta para ofrecer perspectivas y respuestas, no sólo datos.