返回课程列表
Day 8
Week 2模型训练与推理优化

训练基础设施

20 分钟安排: 1. 5 分钟:区分:单机训练 / 多 GPU / 多机多卡。 2. 10 分钟:用例子解释:数据并行 vs 模型并行。 3. 5 分钟:想你现在有一块 3090 和一台 8 卡服务器,会怎么分配任务?

🎯学习目标

  • 1区分:单机训练 / 多 GPU / 多机多卡
  • 2用例子解释:数据并行 vs 模型并行
  • 3想你现在有一块 3090 和一台 8 卡服务器,会怎么分配任务?

💡核心概念

GPU 资源调度:哪些任务优先?如何避免 GPU 空转?数据并行:把数据拆到不同 GPU,同一模型副本模型并行:把一个大模型拆到多个 GPU

🛠实战提示

在脑中画一个 "Trainer 集群":有 scheduler,有 worker,有日志。

20 分钟安排

1. 5 分钟:
2. 10 分钟:
3. 5 分钟:

📚学习资源

📝学习笔记

还没有笔记,开始记录你的学习心得吧