El Grupo de Investigación en Inteligencia Artificial de Tether ha lanzado públicamente la versión de producción de TurboQuant, un algoritmo de código abierto desarrollado originalmente por Google Research. Esta actualización, empaquetada como parte del QVAC SDK 0.12.0, tiene como objetivo expandir enormemente las capacidades locales de IA en laptops, teléfonos inteligentes, dispositivos de borde y redes descentralizadas. Al disminuir la dependencia de la infraestructura en la nube, la empresa quiere permitir sesiones de IA más prolongadas en el dispositivo que prioricen la privacidad del usuario.
Avance en la compresión de memoria
Uno de los obstáculos más significativos para ejecutar modelos de IA poderosos en hardware cotidiano ha sido durante mucho tiempo las limitaciones de capacidad de memoria. Cuando un asistente de IA procesa documentos o conversaciones extensas, utiliza una estructura de memoria conocida como caché KV para retener el conocimiento contextual. Estas cachés, especialmente durante sesiones prolongadas, pueden consumir recursos de memoria sustanciales.
Según los puntos de referencia técnicos, solo la caché KV para un modelo de 4 mil millones de parámetros que trabaja con una ventana de contexto de 262,000 tokens puede consumir alrededor de 8 GB de memoria. En cuatro sesiones simultáneas, esta cifra aumenta a 32 GB, sin incluir la memoria utilizada por el modelo en sí. Se informa que TurboQuant comprime esta demanda de memoria hasta cinco veces, sin afectar significativamente la calidad del modelo.
Mini-glosario: La caché KV se refiere al espacio de memoria donde los grandes modelos de lenguaje almacenan las claves y valores derivados de las palabras y oraciones procesadas previamente. Esto permite que la IA entienda y preserve contextos extensos, pero las altas cargas de memoria hacen que el procesamiento en el dispositivo sea un desafío, de ahí la necesidad de soluciones de compresión.
Gracias a este nuevo enfoque, un usuario podría ahora examinar un contrato legal de cien páginas en la herramienta de IA de su laptop sin subir material sensible a servidores externos. Tether cree que este avance permitirá a diversos grupos de usuarios, desde estudiantes e investigadores hasta desarrolladores y periodistas, ejecutar sesiones más largas y altamente contextuales con modelos de IA locales directamente en sus propios dispositivos.
La investigación de Google demostró que la memoria de IA se puede comprimir mucho más eficientemente de lo que la mayoría de la gente supone. Nuestro trabajo lleva este avance directamente a las manos de desarrolladores, emprendedores y usuarios finales a través de software listo para producción.
Las herramientas de IA local crecen con QVAC SDK 0.12.0
TurboQuant ahora está integrado directamente en QVAC SDK 0.12.0 y profundamente integrado con Fabric, un componente fundamental de la pila QVAC. Fabric se ramificó originalmente de llama.cpp, expandiéndose luego para incluir una amplia gama de contribuciones de investigación. El paquete QVAC SDK incluye todas las bibliotecas necesarias, herramientas y componentes de tiempo de ejecución para equipos que crean aplicaciones de IA local, simplificando el despliegue.
Según Tether, esta actualización podría ser especialmente significativa para startups y desarrolladores independientes. Ventanas de contexto más largas y capacidades para gestionar documentos grandes en hardware de consumo abrirán la puerta a un despliegue de IA más flexible en dispositivos personales y de borde. La empresa ve esto como un desafío a la noción de que los productos de IA poderosos deben siempre depender de costosos clústeres de GPU.
La privacidad de los datos y la reducción de la dependencia de la nube también están a la vanguardia del mensaje de Tether. El CEO Paolo Ardoino subrayó que los usuarios no deberían tener que dirigir sus documentos más privados o tareas extensas a través de centros de datos distantes cada vez. Ardoino cree que TurboQuant allana el camino para interacciones de IA verdaderamente locales con aplicaciones mucho más amplias.
Las personas deberían poder tener un asistente de IA que lea un documento largo o trabaje en información sensible sin estar atados a un centro de datos remoto cada vez.
La estrategia más amplia de Tether gira en torno a la IA que funciona más cerca del usuario, en dispositivos personales y redes descentralizadas en lugar de mega infraestructuras centralizadas. La empresa cree que la eficiencia del software y la portabilidad serán tan cruciales como la potencia computacional bruta en la era venidera. El lanzamiento de producción también incluye flujos de trabajo de cuantización completos, adaptadores de marco, documentación para desarrolladores y varios perfiles diseñados para diferentes cargas de trabajo.


