AI教程2026年2月24日PyTorch 多 GPU 训练指南:梯度累积与数据并行实现深入探讨如何在 PyTorch 中通过梯度累积 (Gradient Accumulation) 和分布式数据并行 (DDP) 优化显存使用并扩展 LLM 训练规模。阅读全文 →
AI教程2026年1月26日优化分布式 AI/ML 训练工作负载中的数据传输深入探讨如何利用 NVIDIA Nsight Systems 识别并解决大规模 AI 训练中的数据传输瓶颈,通过内存固定、NCCL 调优和 GPUDirect RDMA 等技术提升系统效率。阅读全文 →
AI教程2026年1月5日Mosaic 分布式注意力分片:解决 15 万超长序列显存瓶颈深入探讨 Mosaic 库如何通过分布式注意力分片(Sharding Attention)技术,解决 15 万超长序列在 Transformer 模型中的显存瓶颈问题。阅读全文 →