跳到主要内容

DeepSeek-V3 Technical Report

DeepSeek-AI, 2024 | arXiv:2412.19437

一句话总结

DeepSeek-V3 是一个 671B 参数的 MoE 模型(激活 37B),在训练效率和模型质量上都达到了开源模型的新高度。

核心技术点

1. Multi-head Latent Attention (MLA)

将 KV 压缩到低维潜空间再做 attention,大幅减少 KV Cache 的显存占用:

  • 传统 MHA:KV Cache 大小 = $2 \times n_{heads} \times d_{head} \times seq_len$
  • MLA:KV Cache 大小 = $d_{compress} \times seq_len$,其中 $d_{compress} \ll n_{heads} \times d_{head}$

2. DeepSeekMoE 架构

  • 使用 fine-grained expert(256个小专家 + 1个共享专家)
  • 每个 token 只激活 top-8 个专家
  • 相比传统 MoE 的 8-16 个大专家,细粒度设计提供更灵活的专家组合

3. Auxiliary-Loss-Free Load Balancing

传统 MoE 用辅助 loss 来平衡专家负载,但这会干扰主 loss。DeepSeek-V3 引入 bias-based routing:

  • 给每个专家维护一个偏置项
  • 通过动态调整偏置来平衡负载
  • 不需要额外的 auxiliary loss

4. FP8 混合精度训练

在 H800 集群上使用 FP8 训练,相比 BF16:

  • 训练成本仅 557.6 万美元(2.788M H800 GPU hours)
  • 在 14.8T token 上训练

为什么值得关注

  • 展示了 MoE 架构在效率和质量之间的最佳平衡
  • MLA 是对 GQA 之后的 KV Cache 压缩的进一步探索
  • FP8 训练在工程上的成功实践
  • 开源了完整的技术报告和模型权重

面试相关