1 篇博文含有标签「MoE」

混合专家模型相关

MoE 混合专家模型推理参数与前向传播详解

2026年3月25日 · 阅读需 13 分钟

Zhiyuan Pan

Blog Author

以 DeepSeek-V2-Lite 为例，详细拆解 MoE 的每个参数含义、Router 路由决策、Token Permutation、Grouped GEMM、共享专家计算、MLA 注意力压缩与多 GPU 并行策略。