據 BlockBeats 報道,4 月 30 日,DeepSeek 在 Hugging Face 上發佈了 DeepSeek-Prover-V2-671B 模型。該模型使用 safetensors 文件格式,支持多種計算精度,參數達 6710 億。
該模型採用 DeepSeek-V3 架構,使用 MoE 模式,具有 61 層 Transformer 層和 7168 維隱藏層。支持超長上下文,最大位置嵌入達 16.38 萬,採用 FP8 量化技術,提高推理效率。
據 BlockBeats 報道,4 月 30 日,DeepSeek 在 Hugging Face 上發佈了 DeepSeek-Prover-V2-671B 模型。該模型使用 safetensors 文件格式,支持多種計算精度,參數達 6710 億。
該模型採用 DeepSeek-V3 架構,使用 MoE 模式,具有 61 層 Transformer 層和 7168 維隱藏層。支持超長上下文,最大位置嵌入達 16.38 萬,採用 FP8 量化技術,提高推理效率。