Gemini Live, la respuesta de Google a GPT-4o de OpenAI: el mejor asistente de voz para conversaciones naturales

Google al final le ha devuelto la jugada a OpenAI con Gemini Live y un asistente que llegará en verano para ser una experiencia total.

14 mayo, 2024 21:20

Manuel Ramírez

Otra de las respuestas de Google a GPT-4o en la forma de una actualización para la app para móviles a través de la suscripción Gemini Advanced. Gemini Live es una nueva experiencia conversacional para móviles que ayudará en todo lo que quiera el usuario como es el aprendizaje de cualquier materia, crear imágenes o incluso programar.

Gemini Live llegará justo este verano para tener conversaciones con la voz, o usar texto, imágenes y el audio para una interacción multimodal completa. La IA de Google responderá naturalmente para ser una de las experiencias más esperadas de los próximos meses.

Tendrá la capacidad de entender lo que ve en vídeo para finales de este año para responder en tiempo real. La otra gran novedad de Gemini Live es Gems, que se podrán crear para personalizar la IA según lo que quiera el usuario para un tema en concreto. Similar a los GPTs de ChatGPT.

This summer, we’re expanding Gemini’s multimodal capabilities — including the ability to have an in-depth two-way conversation using your voice. This new experience is called Live. #GoogleIO pic.twitter.com/eAZbaO5WKz
— Google (@Google) May 14, 2024

Se crea una "Gem" para acceder a una experiencia personalizada y así acceder a una IA que se comportará como todo un chef, un entrenador de pilates o un tutor en cálculo o matemáticas.

Los planes para un viaje son otros de los ejemplos de Gemini Live a través de Gemini Advanced, el plan de suscripción de Google. El usuario puede dar todos los detalles con un texto extenso del viaje que quiere hacer próximamente con la familia.

Gemini recoge toda la información desde Google Maps o los correos de Gmail para generar un plan de vacaciones extenso con el vuelo de ida y llegada, los restaurantes en los que pueden comer o cenar, el hotel donde se alojarán y recomendaciones de las horas a las que han de despertarse según el plan del día.

Todo potenciado por Gemini 1.5 Pro, la gran actualización de la IA generativa que ahora ofrece al usuario la capacidad de subir un documento PDF con 1.500 páginas, múltiples archivos a través de distintos proyectos, leer hasta 30.000 líneas de código o hacer un resumen de un vídeo de una hora.

Starting today, Gemini Advanced gives you access to our next-generation AI model, 1.5 Pro, with a 1 million token context window. Upload your documents — up to 1,500 pages — so you can tackle more complex problems than ever before. https://t.co/oES28UZ4n0 #GoogleIO pic.twitter.com/lKpmFF1Aqw
— Google (@Google) May 14, 2024

También tendrá la capacidad de ofrecer varias voces naturales y se pueda elegir la deseada para que Gemini responda. En su personalización permite la habilidad de hablar en el propio ritmo del usuario o interrumpirle a la mitad de una respuesta para hacer otra consulta. Es decir, que la experiencia es como si se conversara con una persona.

Un asistente en toda regla para que ofrezca consejos para hablar en público o para una entrevista de trabajo. Una experiencia increíble, aunque limitada a través de Gemini Advanced, la suscripción de pago que se incluye a través de los varios planes AI Premium de Google One, y que se diferencia de la gratuita de OpenAI con GPT-4o, aunque también tiene sus limitaciones.

Más en Noticias y novedades