MoE 混合专家模型推理参数与前向传播详解
· 阅读需 13 分钟
以 DeepSeek-V2-Lite 为例,详细拆解 MoE 的每个参数含义、Router 路由决策、Token Permutation、Grouped GEMM、共享专家计算、MLA 注意力压缩与多 GPU 并行策略。
混合专家模型相关
查看所有标签以 DeepSeek-V2-Lite 为例,详细拆解 MoE 的每个参数含义、Router 路由决策、Token Permutation、Grouped GEMM、共享专家计算、MLA 注意力压缩与多 GPU 并行策略。