TurboQuant: Google comprime la memoria de los LLMs 6 veces sin perder calidad (y lo que significa para el coste de la IA)
Google Research ha publicado TurboQuant, un algoritmo que reduce 6 veces el uso de memoria de la caché KV en modelos de lenguaje sin perder precisión. Te explico cómo funciona y por qué puede cambiar los costes de despliegue de IA.












