论文解读:Serverless in the Wild — Azure Functions 生产负载特征与冷启动优化
· 阅读需 19 分钟
解读 USENIX ATC 2020 论文,基于 Azure Functions 大规模生产数据分析 Serverless 负载特征,并提出冷启动优化策略。
解读 USENIX ATC 2020 论文,基于 Azure Functions 大规模生产数据分析 Serverless 负载特征,并提出冷启动优化策略。
深入解析 SGLang 的 RadixAttention:Radix Tree 数据结构、前缀匹配与节点分裂、LRU 驱逐策略、引用计数机制,以及与 vLLM Prefix Caching 的对比。
解读 SC 2024 论文,Stellaris 通过 Staleness-Aware 策略结合 Serverless 计算,优化分布式强化学习的训练效率。
解读 OSDI 2016 经典论文,TensorFlow 如何用统一数据流图取代 DistBelief 的二元架构,实现灵活的大规模分布式训练。
全面对比 7 大主流开源大模型的架构设计,从位置编码、注意力机制、FFN 结构、归一化到 Dense vs MoE,总结相同点、不同点与演进趋势。
基于 vLLM v1 源码,深入解析 PagedAttention 的物理块管理、Block Table 映射、CUDA Kernel 实现,以及 Continuous Batching 的调度器算法、请求生命周期和抢占机制。
深入分析 vLLM 中 AsyncLLM 与 Engine 之间基于 ZeroMQ 的通信架构,涵盖 REQ/REP、DEALER/ROUTER、PUSH/PULL 三种通信模式及其在推理服务中的应用。
这是我的第一篇博客文章。