主流激活函数原理与演进详解:从 Sigmoid 到 SwiGLU
· 阅读需 12 分钟
从 Sigmoid/Tanh 到 ReLU 家族,再到 GELU/SiLU 和当前 LLM 标准 SwiGLU,全面梳理激活函数的演进脉络、数学原理与工程实现。
模型架构相关
查看所有标签从 Sigmoid/Tanh 到 ReLU 家族,再到 GELU/SiLU 和当前 LLM 标准 SwiGLU,全面梳理激活函数的演进脉络、数学原理与工程实现。
以 DeepSeek-V2-Lite 为例,详细拆解 MoE 的每个参数含义、Router 路由决策、Token Permutation、Grouped GEMM、共享专家计算、MLA 注意力压缩与多 GPU 并行策略。
从二维旋转直觉到高维推广,详解 RoPE 的数学原理、NeoX/GPT-J 两种实现风格、Triton GPU Kernel 优化,以及 Linear Scaling / NTK / YaRN 三种长度外推策略。
全面对比 7 大主流开源大模型的架构设计,从位置编码、注意力机制、FFN 结构、归一化到 Dense vs MoE,总结相同点、不同点与演进趋势。