分布式训练

AI教程2026年3月28日
使用 PyTorch DDP 构建生产级多节点分布式训练流水线
本教程深入探讨如何利用 PyTorch Distributed Data Parallel (DDP) 将深度学习模型从单机扩展到多节点集群，涵盖 NCCL 后端配置、进程组初始化及性能优化实战。
阅读全文 →
模型评测2026年3月10日
DeepSpeed Ulysses 详解：实现百万级长文本大模型训练的序列并行技术
深入探讨 DeepSpeed-Ulysses 序列并行技术，分析其如何通过高效的 All-to-All 通信机制解决大模型训练中的显存瓶颈，实现超过百万 Token 的超长上下文处理。
阅读全文 →
AI教程2026年3月6日
大规模 LLM 训练优化：深入理解 ZeRO 与 FSDP 多显卡并行技术
通过深入理解零冗余优化器 (ZeRO) 和全分片数据并行 (FSDP)，掌握分布式大语言模型训练的核心。本教程涵盖内存管理、从零开始的实现逻辑以及 PyTorch 实战代码，助你攻克 AI 开发中的显存瓶颈。
阅读全文 →
AI教程2026年2月24日
PyTorch 多 GPU 训练指南：梯度累积与数据并行实现
深入探讨如何在 PyTorch 中通过梯度累积 (Gradient Accumulation) 和分布式数据并行 (DDP) 优化显存使用并扩展 LLM 训练规模。
阅读全文 →
AI教程2026年1月26日
优化分布式 AI/ML 训练工作负载中的数据传输
深入探讨如何利用 NVIDIA Nsight Systems 识别并解决大规模 AI 训练中的数据传输瓶颈，通过内存固定、NCCL 调优和 GPUDirect RDMA 等技术提升系统效率。
阅读全文 →
AI教程2026年1月5日
Mosaic 分布式注意力分片：解决 15 万超长序列显存瓶颈
深入探讨 Mosaic 库如何通过分布式注意力分片（Sharding Attention）技术，解决 15 万超长序列在 Transformer 模型中的显存瓶颈问题。
阅读全文 →

文章分类

热门标签

使用 PyTorch DDP 构建生产级多节点分布式训练流水线

DeepSpeed Ulysses 详解：实现百万级长文本大模型训练的序列并行技术

大规模 LLM 训练优化：深入理解 ZeRO 与 FSDP 多显卡并行技术

PyTorch 多 GPU 训练指南：梯度累积与数据并行实现

优化分布式 AI/ML 训练工作负载中的数据传输

Mosaic 分布式注意力分片：解决 15 万超长序列显存瓶颈