LLM 量化方法原理与实现详解:GPTQ、AWQ、SmoothQuant、FP8
· 阅读需 13 分钟
全面解析 LLM 量化:数据类型基础、对称/非对称量化数学、GPTQ Hessian 误差补偿、AWQ 激活感知缩放、SmoothQuant 激活平滑、FP8 与 GGUF 量化体系。
LLM 推理相关
查看所有标签全面解析 LLM 量化:数据类型基础、对称/非对称量化数学、GPTQ Hessian 误差补偿、AWQ 激活感知缩放、SmoothQuant 激活平滑、FP8 与 GGUF 量化体系。
对比 vLLM 和 SGLang 的调度策略:FCFS、优先级调度、LPM 最长前缀匹配、抢占机制、Token Budget 分配与 Chunked Prefill。
以 DeepSeek-V2-Lite 为例,详细拆解 MoE 的每个参数含义、Router 路由决策、Token Permutation、Grouped GEMM、共享专家计算、MLA 注意力压缩与多 GPU 并行策略。
深入解析 SGLang 的 RadixAttention:Radix Tree 数据结构、前缀匹配与节点分裂、LRU 驱逐策略、引用计数机制,以及与 vLLM Prefix Caching 的对比。
基于 vLLM v1 源码,深入解析 PagedAttention 的物理块管理、Block Table 映射、CUDA Kernel 实现,以及 Continuous Batching 的调度器算法、请求生命周期和抢占机制。
深入分析 vLLM 中 AsyncLLM 与 Engine 之间基于 ZeroMQ 的通信架构,涵盖 REQ/REP、DEALER/ROUTER、PUSH/PULL 三种通信模式及其在推理服务中的应用。