LLM 推理调度器优先级与调度策略详解
· 阅读需 9 分钟
对比 vLLM 和 SGLang 的调度策略:FCFS、优先级调度、LPM 最长前缀匹配、抢占机制、Token Budget 分配与 Chunked Prefill。
SGLang 推理框架相关
查看所有标签对比 vLLM 和 SGLang 的调度策略:FCFS、优先级调度、LPM 最长前缀匹配、抢占机制、Token Budget 分配与 Chunked Prefill。
深入解析 SGLang 的 RadixAttention:Radix Tree 数据结构、前缀匹配与节点分裂、LRU 驱逐策略、引用计数机制,以及与 vLLM Prefix Caching 的对比。