4 篇博文含有标签「源码分析」

开源项目源码分析

LLM 推理调度器优先级与调度策略详解

2026年3月25日 · 阅读需 9 分钟

Zhiyuan Pan

Blog Author

对比 vLLM 和 SGLang 的调度策略：FCFS、优先级调度、LPM 最长前缀匹配、抢占机制、Token Budget 分配与 Chunked Prefill。

2026年3月25日 · 阅读需 7 分钟

Zhiyuan Pan

Blog Author

深入解析 SGLang 的 RadixAttention：Radix Tree 数据结构、前缀匹配与节点分裂、LRU 驱逐策略、引用计数机制，以及与 vLLM Prefix Caching 的对比。

2026年3月24日 · 阅读需 12 分钟

Zhiyuan Pan

Blog Author

基于 vLLM v1 源码，深入解析 PagedAttention 的物理块管理、Block Table 映射、CUDA Kernel 实现，以及 Continuous Batching 的调度器算法、请求生命周期和抢占机制。

2026年3月24日 · 阅读需 6 分钟

Zhiyuan Pan

Blog Author

深入分析 vLLM 中 AsyncLLM 与 Engine 之间基于 ZeroMQ 的通信架构，涵盖 REQ/REP、DEALER/ROUTER、PUSH/PULL 三种通信模式及其在推理服务中的应用。