De acordo com a Foresight News, o protocolo de IA descentralizado Prime Intellect lançou uma prévia de sua pilha de inferência. Este desenvolvimento visa abordar desafios na decodificação autorregressiva, incluindo eficiência computacional, gargalos de memória de cache KV e latência de rede pública.

A pilha de inferência emprega um design de paralelismo em pipeline, permitindo alta densidade computacional e execução assíncrona. Juntamente com este lançamento, a Prime Intellect introduziu três bibliotecas de código aberto: PRIME-IROH, um backend de comunicação ponto a ponto; PRIME-VLLM, que integra vLLM com paralelismo de pipeline de rede pública; e PRIME-PIPELINE, um sandbox de pesquisa.

Essas ferramentas permitem que os usuários executem grandes modelos usando GPUs como as 3090 e 4090, aprimorando as capacidades dos protocolos de IA.