TurboQuant

TurboQuant Google

Software

Google cambia las normas y la bolsa cae: su nuevo algoritmo reduce en 6 veces la cantidad de memoria que necesita la IA

Las acciones de las compañías de memoria RAM han caído en picado después de que el último logro de Google se hiciese público.

Más información: Sony sube los precios: la PlayStation 5 ahora cuesta 100 euros más por la situación global y la memoria RAM

Publicada

Puede que por fin hayamos encontrado la luz al final del túnel y que la crisis de la memoria RAM esté cerca de terminar. Todo, gracias a TurboQuant, el nuevo algoritmo de Google que ha demostrado ser capaz de reducir el consumo de memoria en modelos de inteligencia artificial.

La reacción del mercado al anuncio de TurboQuant demuestra la importancia que una tecnología semejante puede tener para el futuro del sector de la IA: todas las compañías productoras de memoria RAM han caído en picado en bolsa.

Las acciones de Micron, uno de los principales suministradores, han caído un 13,9% respecto al precio de la semana pasada, y otras como Samsung con una caída del 7,9% y SK Hynix con una caída del 8,4% no se han salvado.

Sin embargo, antes de abrir el champán y celebrar la vuelta de los precios razonables de memoria RAM, primero hay que comprender qué es TurboQuant y el verdadero impacto que puede tener en el sector.

TurboQuant es un algoritmo de compresión para modelos de IA que reduce la cantidad de memoria usada por los LLM, especialmente la llamada KV caché o "key-value cache" de los 'transformers', la memoria donde el modelo guarda el contexto reciente.

Esta es una especie de "chuleta" en palabras de Google, ya que almacena información importante para no tener que gastar más tiempo de computación en volver a obtenerla, y es absolutamente necesaria para que una LLM funcione como es debido.

El problema es que la KV caché puede alcanzar un tamaño muy grande, especialmente cuando se trata de una gran cantidad de información como los píxeles de una imagen que queremos modificar o un gran conjunto de datos que queremos analizar. En parte, es el motivo por el que los modelos de IA requieren de tanta memoria RAM.

Google afirma que este algoritmo es capaz de comprimir el KV caché hasta unos 3 bits por valor, frente a los 16 bits usados típicamente para estos datos, pero como resultado el consumo de memoria se reduce al menos 6 veces.

De hecho, en algunas pruebas los ingenieros de Google han conseguido obtener una reducción de 8 veces la cantidad de memoria en GPUs como la Nvidia H100 usando 4 bits en vez de los habituales 32 bits sin comprimir.

Lo importante es que Google afirma que este proceso se realiza sin pérdida de datos y por lo tanto, no afecta a la calidad de los resultados generados por la IA. Para ello, el proceso se simplifica usando coordenadas polares en vez de vectores de dirección, para a continuación corregir posibles errores residuales.

Cómo afectará a la industria

En otras palabras, es mucha matemática para alcanzar el mismo resultado, pero gracias a eso no es necesario usar tanta memoria RAM para almacenar valores; pero ¿significa eso que estamos ante el fin de la crisis que azota al sector tecnológico desde hace meses?

No necesariamente. Aunque la reacción inicial del mercado bursátil haya sido de pánico, en realidad ya está empezando a recuperarse tras la apertura del viernes, una vez que los analistas han comprendido que el hecho de que la IA use menos memoria RAM no significa que el consumo se vaya a reducir.

De hecho, TurboQuant podría tener el efecto contrario al esperado, aumentando la demanda de inteligencia artificial gracias a la reducción de costes asociada; y como consecuencia, la demanda de memoria RAM podría incluso subir.

Aún es demasiado pronto para conocer el verdadero impacto de TurboQuant en la industria de la IA y especialmente, en la adopción de esta tecnología. Pero lo que está claro es que Google ha vuelto a cambiar las reglas del juego.