据Odaily星球日报报道,DeepSeek 推出 NSA,这是一种与硬件一致且本机可训练的稀疏注意力机制。
NSA 通过优化设计,加快推理速度,降低预训练成本,同时保持性能不变。
在一般基准测试、长上下文任务和基于指令的推理上,NSA 的表现与完全注意力模型相当甚至更好。