Theo Foresight News, giao thức AI phi tập trung Prime Intellect đã phát hành một bản xem trước ngăn xếp suy diễn của mình. Phát triển này nhằm giải quyết các thách thức trong việc giải mã tự hồi tiếp, bao gồm hiệu quả tính toán, nút thắt bộ nhớ KV cache và độ trễ mạng công cộng.

Ngăn xếp suy diễn sử dụng thiết kế song song theo chuỗi, cho phép mật độ tính toán cao và thực thi không đồng bộ. Cùng với bản phát hành này, Prime Intellect đã giới thiệu ba thư viện mã nguồn mở: PRIME-IROH, một backend giao tiếp ngang hàng; PRIME-VLLM, tích hợp vLLM với tính năng song song mạng công cộng; và PRIME-PIPELINE, một sandbox nghiên cứu.

Những công cụ này cho phép người dùng chạy các mô hình lớn sử dụng GPU như 3090 và 4090, nâng cao khả năng của các giao thức AI.