Fotomontaje inspirado en Qwen Manuel Ramírez

Noticias y novedades

Ni ChatGPT ni Gemini, la nueva IA de Alibaba: clona voces con solo tres segundos de audio y las reproduce en 10 idiomas

Uno de los dos modelos Qwen es capaz de procesar textos complejos, imitar los sonidos de animales e incluso extraer voces de grabaciones.

Más información: Qwen-Image, la IA que genera imágenes y que desafía a ChatGPT, ya permite editarlas gratis de una forma asombrosa

Manuel Ramírez

Publicada 23 diciembre 2025 18:11h

El equipo de Qwen de Alibaba Group ha demostrado gran valía a lo largo del año con lanzamientos como Qwen Image, y ahora vuelve a hacerlo con la publicación de dos modelos de IA que crean o clonan voces con prompts.

El modelo Qwen3-TTS-VD Flash permite a los usuarios generar voces basadas en descripciones detalladas, lo que les permite definir con mayor precisión características como la emoción o el tempo en el habla.

Se pueden utilizar descripciones como "Hombre de mediana edad, barítono potente: voz de infomercial hiperenergética, con un ritmo vertiginoso, subidas de tono exageradas y rebosante de actitud vendedora".

[En China van por delante: Alibaba anuncia dos nuevas gafas inteligentes que usan IA hasta para pagar]

Según mantiene Qwen desde su web, el modelo supera al API de GPT-4o mini-tts de OpenAI que se lanzó justamente en la primavera pasada.

El segundo modelo es Qwen3-TTS-VC-Flash que se caracteriza por clonar voces a partir de solo tres segundos de audio y reproducirlas en diez idiomas.

Los nuevos modelos de IA de Qwen que clonan voces Qwen

Qwen también señala, según The Decoder, que el modelo logra una tasa de error inferior a la de competidores como Elevenlabs o MiniMax.

También es capaz de procesar textos complejos, imitar los sonidos de animales y extraer voces de grabaciones. Ambos modelos están disponibles a través de Alibaba Cloud API.

Imagen de la demostración de la IA de Qwen que clona voces

Desde Hugging Face ya se pueden probar tanto para el modelo de diseño como el modelo de clonación, y con una interfaz sencilla para grabar nuestra voz con el móvil.

Se pueden leer los pasos desde el repositorio Hugging Face para que en unos minutos tengamos la voz clonada de cualquier audio de tres segundos o más:

Se pulsa sobre "Grabar" para tomar una muestra de voz (se recomienda entre 10 y 30 segundos).
Se introduce el texto que se sintetiza.
Se da a "Start synthesis" y, una vez finalizado el proceso, el resultado se puede guardar o reproducir.

Un importante logro para Qwen como un modelo de IA que es uno de los estandartes de LLMs (Modelos de Lenguaje Grandes) de código abierto frente a los occidentales como ChatGPT, Claude o Gemini.

Aunque en estas últimas semanas en Europa se lanzaron los dos modelos Devstral 2 y Devstral Small 2 para abrazar la experiencia de los modelos de IA de código abierto.

Sobre todo porque se pueden instalar localmente en un PC de sobremesa (siempre que dispongan del hardware necesario) y así proteger la privacidad de todas las consultas o los datos que se suministran a la IA.

De hecho, Devstral Small 2 se ha convertido en un modelo muy eficaz en los recursos que necesita para poder usarse en un PC de sobremesa o incluso portátil.

Qwen también cuenta con algunos modelos ligeros que permiten llevar a un PC una de las mejores capacidades de este modelo de IA y que es justamente en las matemáticas y la codificación.

Más en Noticias y novedades