LLM 推理调度器优先级与调度策略详解
· 阅读需 9 分钟
对比 vLLM 和 SGLang 的调度策略:FCFS、优先级调度、LPM 最长前缀匹配、抢占机制、Token Budget 分配与 Chunked Prefill。
开源项目源码分析
查看所有标签对比 vLLM 和 SGLang 的调度策略:FCFS、优先级调度、LPM 最长前缀匹配、抢占机制、Token Budget 分配与 Chunked Prefill。
深入解析 SGLang 的 RadixAttention:Radix Tree 数据结构、前缀匹配与节点分裂、LRU 驱逐策略、引用计数机制,以及与 vLLM Prefix Caching 的对比。
基于 vLLM v1 源码,深入解析 PagedAttention 的物理块管理、Block Table 映射、CUDA Kernel 实现,以及 Continuous Batching 的调度器算法、请求生命周期和抢占机制。
深入分析 vLLM 中 AsyncLLM 与 Engine 之间基于 ZeroMQ 的通信架构,涵盖 REQ/REP、DEALER/ROUTER、PUSH/PULL 三种通信模式及其在推理服务中的应用。