返回课程列表
Day 10
Week 2模型训练与推理优化

推理性能优化

20 分钟安排: 1. 5 分钟:列出推理延迟的 3 个来源:模型、网络、队列。 2. 10 分钟:写出什么是 Batching,以及有什么坑(延迟 vs 吞吐)。 3. 5 分钟:假设你每天要服务 10w 次请求,会优先考虑什么优化?

🎯学习目标

  • 1列出推理延迟的 3 个来源:模型、网络、队列
  • 2写出什么是 Batching,以及有什么坑(延迟 vs 吞吐)
  • 3假设你每天要服务 10w 次请求,会优先考虑什么优化?

💡核心概念

动态批处理 (Dynamic Batching):在短时间窗口内收集多个请求,一起跑缓存:Prompt 缓存、Embedding 缓存异步推理:请求先确认,再异步返回结果

🛠实战提示

在纸上画出:API → 请求队列 → Batch 合并器 → 模型 → 返回。

20 分钟安排

1. 5 分钟:
2. 10 分钟:
3. 5 分钟:

📚学习资源

📝学习笔记

还没有笔记,开始记录你的学习心得吧