LLM核心数学推导:Attention、RoPE、Softmax、LayerNorm、反向传播等
文档定位:把 LLM 里最常见、最容易在面试中被追问的数学公式单独抽出来,并按“详细推导版”来写。每个模块都按四件事组织: