4 篇博文含有标签「模型架构」

模型架构相关

主流激活函数原理与演进详解：从 Sigmoid 到 SwiGLU

2026年3月25日 · 阅读需 12 分钟

Zhiyuan Pan

Blog Author

从 Sigmoid/Tanh 到 ReLU 家族，再到 GELU/SiLU 和当前 LLM 标准 SwiGLU，全面梳理激活函数的演进脉络、数学原理与工程实现。

2026年3月25日 · 阅读需 13 分钟

Zhiyuan Pan

Blog Author

以 DeepSeek-V2-Lite 为例，详细拆解 MoE 的每个参数含义、Router 路由决策、Token Permutation、Grouped GEMM、共享专家计算、MLA 注意力压缩与多 GPU 并行策略。

2026年3月25日 · 阅读需 8 分钟

Zhiyuan Pan

Blog Author

从二维旋转直觉到高维推广，详解 RoPE 的数学原理、NeoX/GPT-J 两种实现风格、Triton GPU Kernel 优化，以及 Linear Scaling / NTK / YaRN 三种长度外推策略。

2026年3月24日 · 阅读需 8 分钟

Zhiyuan Pan

Blog Author

全面对比 7 大主流开源大模型的架构设计，从位置编码、注意力机制、FFN 结构、归一化到 Dense vs MoE，总结相同点、不同点与演进趋势。