跳到主要内容

推荐资源

目录


论文

训练优化

论文作者/机构核心贡献
ZeRO: Memory Optimizations Toward Training Trillion Parameter ModelsMicrosoftZeRO 系列,用通信换显存
Megatron-LM: Training Multi-Billion Parameter Language Models Using Model ParallelismNVIDIA张量并行和流水线并行
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-AwarenessStanfordIO-Aware 的 Attention 优化
FlashAttention-2: Faster Attention with Better Parallelism and Work PartitioningStanford进一步优化

推理优化

论文作者/机构核心贡献
Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LMNVIDIA3D 并行最佳实践
vLLM: Efficient Memory Management for Large Language Model Serving with PagedAttentionUC BerkeleyPagedAttention
DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model ServingDuke/SJTUPD 分离
Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding HeadsPrinceton投机解码
SpecInfer: Accelerating Generative LLM Serving with Speculative Inference and Token Tree VerificationCMU投机推理

量化与压缩

论文作者/机构核心贡献
LLM.int8(): 8-bit Matrix Multiplication for Transformers at ScaleMetaINT8 量化
SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language ModelsMIT激活平滑量化
AWQ: Activation-aware Weight Quantization for LLM Compression and AccelerationMIT保护显著权重
GPTQ: Accurate Post-Training Quantization for Generative Pre-trained TransformersIST Austria训练后量化

开源框架

训练框架

框架链接适用场景
DeepSpeedhttps://github.com/microsoft/DeepSpeed微软分布式训练框架,ZeRO 优化
Megatron-LMhttps://github.com/NVIDIA/Megatron-LMNVIDIA 大模型训练,3D 并行
FSDPPyTorch 原生PyTorch 原生分布式训练
Colossal-AIhttps://github.com/hpcaitech/Colossal-AI统一的大模型训练系统
Ray Trainhttps://github.com/ray-project/ray分布式训练编排

推理框架

框架链接特点
vLLMhttps://github.com/vllm-project/vllmPagedAttention,Continuous Batching
TensorRT-LLMhttps://github.com/NVIDIA/TensorRT-LLMNVIDIA 推理优化,FP8 支持
Text Generation Inferencehttps://github.com/huggingface/text-generation-inferenceHuggingFace 推理服务
lmdeployhttps://github.com/InternLM/lmdeploy国产推理框架,TurboMind 引擎
llama.cpphttps://github.com/ggerganov/llama.cpp纯 C++ 实现,CPU/GPU 混合推理

编译器/优化工具

工具链接用途
Tritonhttps://github.com/openai/tritonPython 编写高性能 GPU Kernel
TVMhttps://github.com/apache/tvm深度学习编译器
XLATensorFlow/PyTorch 集成线性代数编译器
ONNX Runtimehttps://github.com/microsoft/onnxruntime跨平台推理加速

官方文档

NVIDIA 生态

资源链接内容
CUDA Programming Guidehttps://docs.nvidia.com/cuda/cuda-c-programming-guide/CUDA 编程权威指南
NCCL Documentationhttps://docs.nvidia.com/deeplearning/nccl/集合通信库
cuBLAS/cuDNNNVIDIA 开发者网站GPU 数学库
Nsight SystemsNVIDIA 开发者网站性能分析工具

PyTorch 生态

资源链接内容
PyTorch Distributedhttps://pytorch.org/tutorials/beginner/dist_overview.html分布式训练入门
FSDP TutorialPyTorch 官方文档FSDP 详细教程
PyTorch ProfilerPyTorch 官方文档性能分析
torch.compilePyTorch 官方文档图编译加速

技术博客

公司/机构博客

博客链接特点
NVIDIA Developer Bloghttps://developer.nvidia.com/blogGPU 优化权威
PyTorch Bloghttps://pytorch.org/blog/PyTorch 最新特性
Microsoft Researchhttps://www.microsoft.com/en-us/research/research-area/artificial-intelligence/DeepSpeed 相关
Google AI Bloghttps://ai.googleblog.com/Transformer 家族
EleutherAI Bloghttps://www.eleuther.ai/开源大模型研究

个人/社区博客

博主链接/渠道内容方向
Lilian Wenghttps://lilianweng.github.io/OpenAI 研究员,深度学习理论
Tim Dettmershttps://timdettmers.com/量化、显卡选购指南
Papers with Codehttps://paperswithcode.com/论文+代码
Hugging Face Bloghttps://huggingface.co/blog大模型应用

中文资源

来源链接/渠道内容方向
苏剑林博客https://spaces.ac.cn/科学空间,数学+算法
李沐B站/YouTube动手学深度学习
跟李沐学AIB站论文精读系列
朱小厮知乎/CSDN分布式系统

在线课程

免费课程

课程平台内容
CS217: Parallel ComputingStanford并行计算基础
CUDA on NVIDIA GPUsNVIDIACUDA 编程
Deep Learning SpecializationCoursera (Andrew Ng)深度学习基础
Introduction to Parallel ProgrammingUdacity (NVIDIA)并行编程入门

付费/专业课程

课程平台内容
大规模机器学习系统各大在线教育平台分布式 ML 系统设计
高性能 CUDA 编程NVIDIA DLICUDA 进阶

社区与论坛

社区链接用途
GitHub Issues各开源框架问题排查
Stack Overflowstackoverflow.com编程问题
Reddit r/MachineLearningreddit.com/r/MachineLearning最新讨论
Discord (Hugging Face)discord.gg/hugging-face社区交流
Paper Reading Groups各大公司/学校论文讨论

工具推荐

性能分析

工具用途
Nsight Systems全系统性能分析
Nsight ComputeKernel 级性能分析
PyTorch ProfilerPyTorch 模型分析
TensorBoard训练可视化
Weights & Biases实验管理

开发环境

工具用途
nvidia-smiGPU 状态监控
ncu (NVIDIA Compute Profiler)CUDA Kernel 分析
htop/topCPU/内存监控
iostatIO 监控
perfLinux 性能分析

持续更新中,欢迎推荐优质资源!