返回课程列表
Day 10
Week 2模型训练与推理优化
推理性能优化
20 分钟安排: 1. 5 分钟:列出推理延迟的 3 个来源:模型、网络、队列。 2. 10 分钟:写出什么是 Batching,以及有什么坑(延迟 vs 吞吐)。 3. 5 分钟:假设你每天要服务 10w 次请求,会优先考虑什么优化?
🎯学习目标
- 1列出推理延迟的 3 个来源:模型、网络、队列
- 2写出什么是 Batching,以及有什么坑(延迟 vs 吞吐)
- 3假设你每天要服务 10w 次请求,会优先考虑什么优化?
💡核心概念
动态批处理 (Dynamic Batching):在短时间窗口内收集多个请求,一起跑缓存:Prompt 缓存、Embedding 缓存异步推理:请求先确认,再异步返回结果
🛠实战提示
在纸上画出:API → 请求队列 → Batch 合并器 → 模型 → 返回。
✅20 分钟安排
1. 5 分钟:
2. 10 分钟:
3. 5 分钟:
📚学习资源
📝学习笔记
还没有笔记,开始记录你的学习心得吧