主流激活函数原理与演进详解:从 Sigmoid 到 SwiGLU
· 阅读需 12 分钟
从 Sigmoid/Tanh 到 ReLU 家族,再到 GELU/SiLU 和当前 LLM 标准 SwiGLU,全面梳理激活函数的演进脉络、数学原理与工程实现。
大语言模型相关
查看所有标签从 Sigmoid/Tanh 到 ReLU 家族,再到 GELU/SiLU 和当前 LLM 标准 SwiGLU,全面梳理激活函数的演进脉络、数学原理与工程实现。
全面解析 LLM 量化:数据类型基础、对称/非对称量化数学、GPTQ Hessian 误差补偿、AWQ 激活感知缩放、SmoothQuant 激活平滑、FP8 与 GGUF 量化体系。
以 DeepSeek-V2-Lite 为例,详细拆解 MoE 的每个参数含义、Router 路由决策、Token Permutation、Grouped GEMM、共享专家计算、MLA 注意力压缩与多 GPU 并行策略。
从二维旋转直觉到高维推广,详解 RoPE 的数学原理、NeoX/GPT-J 两种实现风格、Triton GPU Kernel 优化,以及 Linear Scaling / NTK / YaRN 三种长度外推策略。
全面对比 7 大主流开源大模型的架构设计,从位置编码、注意力机制、FFN 结构、归一化到 Dense vs MoE,总结相同点、不同点与演进趋势。