DeepSeek 發佈 Prover-V2 模型，參數量達 6710 億

--

Foresight News 消息，據金十報道，DeepSeek 今日於 AI 開源社區 Hugging Face 上發佈了一個名爲 DeepSeek-Prover-V2-671B 的新模型。DeepSeek-Prover-V2-671B 使用了更高效的 safetensors 文件格式，並支持多種計算精度，方便模型更快、更省資源地訓練和部署，參數達 6710 億，或爲去年發佈的 Prover-V1.5 數學模型升級版本。在模型架構上，該模型使用了 DeepSeek-V3 架構，採用 MoE（混合專家）模式，具有 61 層 Transformer 層，7168 維隱藏層。同時支持超長上下文，最大位置嵌入達 16.38 萬，使其能處理複雜的數學證明，並且採用了 FP8 量化，可通過量化技術減小模型大小，提高推理效率。

免責聲明：包含來自第三方的見解。非財務建議。可能包含贊助內容。請參閱條款。