Selon Foresight News, le protocole d'IA décentralisé Prime Intellect a publié un aperçu de sa pile d'inférence. Ce développement vise à relever des défis dans le décodage autoregressif, y compris l'efficacité computationnelle, les goulets d'étranglement de la mémoire cache KV et la latence des réseaux publics.
La pile d'inférence utilise un design de pipeline parallèle, permettant une haute densité de calcul et une exécution asynchrone. Avec cette version, Prime Intellect a introduit trois bibliothèques de code open-source : PRIME-IROH, un backend de communication pair à pair ; PRIME-VLLM, qui intègre vLLM avec le parallélisme de pipeline sur réseau public ; et PRIME-PIPELINE, un environnement de recherche.
Ces outils permettent aux utilisateurs d'exécuter de grands modèles utilisant des GPU tels que les 3090 et 4090, améliorant ainsi les capacités des protocoles d'IA.