返回课程列表
Day 8
Week 2模型训练与推理优化
训练基础设施
20 分钟安排: 1. 5 分钟:区分:单机训练 / 多 GPU / 多机多卡。 2. 10 分钟:用例子解释:数据并行 vs 模型并行。 3. 5 分钟:想你现在有一块 3090 和一台 8 卡服务器,会怎么分配任务?
🎯学习目标
- 1区分:单机训练 / 多 GPU / 多机多卡
- 2用例子解释:数据并行 vs 模型并行
- 3想你现在有一块 3090 和一台 8 卡服务器,会怎么分配任务?
💡核心概念
GPU 资源调度:哪些任务优先?如何避免 GPU 空转?数据并行:把数据拆到不同 GPU,同一模型副本模型并行:把一个大模型拆到多个 GPU
🛠实战提示
在脑中画一个 "Trainer 集群":有 scheduler,有 worker,有日志。
✅20 分钟安排
1. 5 分钟:
2. 10 分钟:
3. 5 分钟:
📚学习资源
📝学习笔记
还没有笔记,开始记录你的学习心得吧