6 篇博文含有标签「推理」

LLM 量化方法原理与实现详解：GPTQ、AWQ、SmoothQuant、FP8

2026年3月25日 · 阅读需 13 分钟

Zhiyuan Pan

Blog Author

全面解析 LLM 量化：数据类型基础、对称/非对称量化数学、GPTQ Hessian 误差补偿、AWQ 激活感知缩放、SmoothQuant 激活平滑、FP8 与 GGUF 量化体系。

2026年3月25日 · 阅读需 9 分钟

Zhiyuan Pan

Blog Author

对比 vLLM 和 SGLang 的调度策略：FCFS、优先级调度、LPM 最长前缀匹配、抢占机制、Token Budget 分配与 Chunked Prefill。

2026年3月25日 · 阅读需 13 分钟

Zhiyuan Pan

Blog Author

以 DeepSeek-V2-Lite 为例，详细拆解 MoE 的每个参数含义、Router 路由决策、Token Permutation、Grouped GEMM、共享专家计算、MLA 注意力压缩与多 GPU 并行策略。

2026年3月25日 · 阅读需 7 分钟

Zhiyuan Pan

Blog Author

深入解析 SGLang 的 RadixAttention：Radix Tree 数据结构、前缀匹配与节点分裂、LRU 驱逐策略、引用计数机制，以及与 vLLM Prefix Caching 的对比。

2026年3月24日 · 阅读需 12 分钟

Zhiyuan Pan

Blog Author

基于 vLLM v1 源码，深入解析 PagedAttention 的物理块管理、Block Table 映射、CUDA Kernel 实现，以及 Continuous Batching 的调度器算法、请求生命周期和抢占机制。

2026年3月24日 · 阅读需 6 分钟

Zhiyuan Pan

Blog Author

深入分析 vLLM 中 AsyncLLM 与 Engine 之间基于 ZeroMQ 的通信架构，涵盖 REQ/REP、DEALER/ROUTER、PUSH/PULL 三种通信模式及其在推理服务中的应用。