跳到主要内容

Hi, 这里是

Zhiyuan 的 LLM 笔记

整理了 LLM 推理 / 训练 / 系统优化方向的面试知识点，
从原理推导到代码实现，从论文解读到真实面经。

从推理 Pipeline 开始面试速查

目录

LLM 推理3 篇

从 tokenize 到 sampling 的完整推理链路，以及 vLLM、PagedAttention、投机解码等优化手段

LLM 训练6 篇

训练全流程、3D并行、ZeRO、梯度累积、混合精度、RLHF 与 DPO

数学推导1 篇

Attention、RoPE、Softmax、反向传播、Adam — 手推一遍才是真的会

手撕 MHA / GQA、写 CUDA kernel、实现 PagedAttention 的 block allocator

论文解读3 篇

Transformer、PagedAttention、DeepSeek-V3 — 读懂原始论文，面试才有底气

字节、美团、快手、NVIDIA、百度 — 真实面试题与复盘

进阶专题4 篇

多模态、Agent、Scaling Law、线上问题排查

速查手册3 篇

66 道高频题的 30 秒口述答案，面试前最后过一遍

推荐阅读顺序

推理 Pipeline 面试题必读— 先建立完整的推理链路认知
训练 Pipeline 面试题必读— 理解从 data loading 到 checkpoint 的全流程
数学推导— 手推 Attention、RoPE、反向传播等核心公式
论文：Attention Is All You Need— 回到原点，重读 Transformer
编程题— 手撕代码，检验理解深度
30 秒速答— 面试前最后过一遍高频题