Según Foresight News, el protocolo de IA descentralizado Prime Intellect ha lanzado una vista previa de su pila de inferencia. Este desarrollo tiene como objetivo abordar los desafíos en la decodificación autorregresiva, incluidos la eficiencia computacional, los cuellos de botella en la memoria caché KV y la latencia de la red pública.
La pila de inferencia emplea un diseño de paralelismo en pipeline, permitiendo una alta densidad computacional y ejecución asíncrona. Junto a este lanzamiento, Prime Intellect ha introducido tres bibliotecas de código abierto: PRIME-IROH, un backend de comunicación peer-to-peer; PRIME-VLLM, que integra vLLM con paralelismo en pipeline de red pública; y PRIME-PIPELINE, un sandbox de investigación.
Estas herramientas permiten a los usuarios ejecutar grandes modelos utilizando GPUs como la 3090 y 4090, mejorando las capacidades de los protocolos de IA.