🏗️ 硬核 AI 架构师 30 天 Bootcamp
从单体到分布式,从模型到生产系统,30 天掌握 AI 架构设计核心能力
🎯 课程定位
这是一门面向有后端开发或机器学习基础的工程师的实战课程。 我们不会教你如何训练模型,而是专注于如何设计、部署和运维生产级的 AI 系统。 每天 20 分钟,通过系统化的学习路径,让你从“会写代码”进阶到“会设计架构”。
👥 适合人群
- 后端工程师:想转型 AI 架构,需要系统学习 AI 系统的工程化实践
- ML 工程师:熟悉模型训练,但缺乏生产级系统设计和部署经验
- 全栈开发者:希望掌握 AI 系统的端到端架构设计能力
- 技术负责人:需要为团队选择技术栈、设计架构方案
🎓 你将学到
分布式系统设计、微服务架构、容器化部署、数据管道、模型服务化、MLOps 实践、性能优化、成本控制等 AI 架构师必备的核心技能。 每周一个实战项目,最终完成一个完整的生产级 AI 系统架构设计。
系统化学习路径
4 周渐进式学习,从基础架构到生产级系统,循序渐进掌握核心技能
实战项目驱动
每周实战项目 + 最终毕业设计,理论结合实践,构建可落地的架构方案
生产级最佳实践
学习业界最佳实践,掌握高可用、可扩展、安全的 AI 系统架构设计
AI 架构基础与系统设计
掌握 AI 系统的基础架构设计原则,理解分布式系统、微服务架构在 AI 场景下的应用
AI 架构师的角色与职责
🎯 学习目标
- •在脑子里区分:"写模型的人(ML Engineer)"、"写业务的人(Backend / Product)"、"设计整套系统的人(AI Architect)"
- •画一张简单架构图:前端 → API → 模型服务 → 数据库 → 日志 / 监控
- +1 更多目标
💡 核心概念
⚡ 实战练习
架构图一定要画出:"数据从哪来 → 进模型 → 出去给谁用"。今天不追求细节,追求 "我知道有哪些盒子,盒子之间怎么连"。
分布式系统基础
🎯 学习目标
- •理解三个问题:网络可能断、机器可能挂、消息可能丢
- •用文字解释 CAP:C 一致性、A 可用性、P 分区容错
- +1 更多目标
💡 核心概念
⚡ 实战练习
用 Docker Compose 起两个后端 + 一个 Nginx,让 Nginx 做反向代理,就是一个迷你"分布式服务集群"。想象以后你的模型服务其实也是这样被多实例部署的。
微服务架构设计
🎯 学习目标
- •写出"为什么要拆微服务"的 3 个理由 & 2 个坏处
- •拿"AI 推荐系统"举例,拆出 3 个服务:用户/用户行为服务、特征&模型服务、推荐结果服务
- +1 更多目标
💡 核心概念
⚡ 实战练习
写一个简单设计说明:"推荐系统微服务架构:服务列表 + 每个服务负责什么 + 彼此怎么调用"。不写代码也没关系,重点是"拆服务的脑子"。
容器化与编排
🎯 学习目标
- •看一下一个典型 Dockerfile 的结构(FROM / COPY / RUN / CMD)
- •在脑里回答:为什么要用 Docker?为什么需要 Kubernetes?
- +1 更多目标
💡 核心概念
⚡ 实战练习
想象一下 Day3 的推荐系统部署到 K8s:每个服务 2 个 Pod,前面有 Ingress / API Gateway,后面有数据库 / Redis / Kafka。
数据管道设计
🎯 学习目标
- •写出你知道的"数据流来源":日志、埋点、交易、设备、第三方接口
- •对比:批处理适合什么场景?流处理适合什么场景?
- +1 更多目标
💡 核心概念
⚡ 实战练习
想象一个"实时监控用户行为 → 更新推荐特征"的管道:Web 日志 → Kafka → 流式计算 → 特征库。
模型服务化架构
🎯 学习目标
- •写下你见过的"模型部署方式":脚本调用 / REST API / Batch 离线
- •盘一盘"模型升级"的问题:怎么灰度?怎么回滚?
- +1 更多目标
💡 核心概念
⚡ 实战练习
设计一个简单 JSON 结构存模型版本信息:model_name, version, created_at, metric, status。想象一个路由层:根据 version/策略选择调用哪个模型。
Week 1 实战项目
🎯 学习目标
- •选一个你最关心的业务场景:AI 问答系统 / 推荐系统 / 智能客服
- •写一个"一页纸架构设计":模块列表、数据从哪里来流向哪里、模型在哪里部署、前端/API/数据库/日志怎么连
💡 核心概念
⚡ 实战练习
给你的架构图起个名字,比如 "SecondMind QA v0.1"。后面每一周都可以往这张图上加东西,而不是重新发明。
模型训练与推理优化
深入理解模型训练流程,掌握推理性能优化技术,学习模型压缩与加速方法
训练基础设施
🎯 学习目标
- •区分:单机训练 / 多 GPU / 多机多卡
- •用例子解释:数据并行 vs 模型并行
- +1 更多目标
💡 核心概念
⚡ 实战练习
在脑中画一个 "Trainer 集群":有 scheduler,有 worker,有日志。
模型优化技术
🎯 学习目标
- •用你能理解的话解释:什么是量化?
- •写出"做知识蒸馏"的流程:Teacher → Student
- +1 更多目标
💡 核心概念
⚡ 实战练习
记住一句话:"不一定永远要最强的模型,而是场景里最合适的模型。"
推理性能优化
🎯 学习目标
- •列出推理延迟的 3 个来源:模型、网络、队列
- •写出什么是 Batching,以及有什么坑(延迟 vs 吞吐)
- +1 更多目标
💡 核心概念
⚡ 实战练习
在纸上画出:API → 请求队列 → Batch 合并器 → 模型 → 返回。
模型服务框架
🎯 学习目标
- •了解 TorchServe / Triton 的定位
- •想象有"一台统一的推理服务器",多个模型挂在上面
- +1 更多目标
💡 核心概念
⚡ 实战练习
思考:你的"SecondMind"将来是:调别人 API(OpenAI 等)还是挂在你自己的 Triton 集群上?
边缘计算部署
🎯 学习目标
- •写出"云端 vs 边缘"的差异
- •想一个需要在边缘跑 AI 的场景:汽车 / 工厂 / 相机
- +1 更多目标
💡 核心概念
⚡ 实战练习
思考边缘部署的约束和优化策略
成本优化策略
🎯 学习目标
- •写下云成本的组成:计算 / 存储 / 网络 / 第三方 API
- •回想你最近一次用大模型,有没有过度浪费(上下文太大 / 模型太强)
- +1 更多目标
💡 核心概念
⚡ 实战练习
养成成本意识,优化资源使用
Week 2 实战项目
🎯 学习目标
- •选一个你关心的"AI 服务"(比如 QA / Summarization / RAG)
- •写出性能优化报告大纲:现状(延迟 / 成本 / 负载)、可能的瓶颈、优化思路(模型、批处理、缓存、基础设施)
💡 核心概念
⚡ 实战练习
完成一个完整的性能优化报告
数据工程与 MLOps
掌握数据工程最佳实践,学习 MLOps 全流程,构建可复用的机器学习基础设施
数据架构设计
🎯 学习目标
- •写出你听过的:Data Lake / Data Warehouse
- •画一个三层数据分层:Raw / Staging / Curated
- +1 更多目标
💡 核心概念
⚡ 实战练习
画一个数据流图:原始数据 → 清洗 → 特征工程 → 模型训练。思考:哪些数据需要实时处理,哪些可以批处理?
特征工程平台
🎯 学习目标
- •写一句话解释:Feature Store 是什么
- •用用户推荐举例:哪些是在线特征,哪些是离线特征
- +1 更多目标
💡 核心概念
⚡ 实战练习
使用 Feast 或 Tecton 搭建特征存储平台。思考:哪些特征需要实时计算,哪些可以预计算?
MLOps 流水线
🎯 学习目标
- •列出训练流水线基本步骤:数据准备 → 训练 → 评估 → 部署
- •用 MLflow/Kubeflow 想象一个 pipeline:Data Ingest → Train → Eval → Register Model
- +1 更多目标
💡 核心概念
⚡ 实战练习
使用 MLflow 或 Kubeflow 构建一个端到端的 MLOps 流水线。思考:如何将手工步骤自动化?
实验管理与追踪
🎯 学习目标
- •回忆你以往是否有"跑完实验忘了参数"
- •设计一个实验追踪表头:run_id / params / metrics / notes
- +1 更多目标
💡 核心概念
⚡ 实战练习
使用 MLflow 或 W&B 追踪多个实验,对比不同超参数配置的效果。建立实验管理习惯,避免重复实验。
模型监控与可观测性
🎯 学习目标
- •写出"模型上线后可能坏掉"的 3 种方式
- •设计三个指标:线上精度(或替代指标)、延迟、错误率
- +1 更多目标
💡 核心概念
⚡ 实战练习
实现一个模型监控系统,包含性能指标、数据漂移检测、异常告警。建立监控仪表板,实时了解模型健康状态。
数据质量保障
🎯 学习目标
- •想象"突然有一列数据全是 null 会怎样"
- •写出你觉得重要的数据质量规则:范围、唯一性、不能为空
- +1 更多目标
💡 核心概念
⚡ 实战练习
使用 Great Expectations 或类似工具构建数据质量检查流程。建立数据质量监控,及时发现数据问题。
Week 3 实战项目
🎯 学习目标
- •给你正在想象的"AI 系统"画一个 MLOps 流程图:数据 → 特征 → 训练 → 部署 → 监控
- •写一段话:哪部分你已经有经验,哪部分是你完全没做过的(未来重点)
💡 核心概念
⚡ 实战练习
设计并实现一个完整的 MLOps 平台,包含数据管道、特征存储、训练流水线、模型服务、监控系统。输出架构文档,总结最佳实践。
生产级系统架构
学习生产环境的最佳实践,掌握高可用、可扩展、安全的 AI 系统架构设计
高可用架构设计
🎯 学习目标
- •写出高可用的三大关键词:冗余 / 自动恢复 / 健康检查
- •画一个"多可用区部署"的模型服务架构
- +1 更多目标
💡 核心概念
⚡ 实战练习
设计一个高可用的模型服务架构,包含多区域部署、自动故障转移。思考:如何平衡可用性和成本?
可扩展性设计
🎯 学习目标
- •区分水平扩展 / 垂直扩展
- •写一个自动扩缩容策略:CPU > 70% 连续 5 分钟 → 扩容
- +1 更多目标
💡 核心概念
⚡ 实战练习
实现一个支持自动扩缩容的模型服务,进行压力测试验证。建立容量规划流程,避免资源浪费或不足。
安全与合规
🎯 学习目标
- •列出 AI 系统的 3 个安全点:访问控制 / 数据安全 / 模型滥用
- •写一个简单安全架构:Auth 服务、API Gateway、加密存储
- +1 更多目标
💡 核心概念
⚡ 实战练习
为一个 AI 系统设计安全架构,包含认证、授权、数据加密、审计日志。建立安全审查流程,定期检查安全漏洞。
多租户架构
🎯 学习目标
- •解释"多租户 = 一套系统,服务多家公司/团队"
- •列出三种隔离方式:数据库级 / schema 级 / 行级
- +1 更多目标
💡 核心概念
⚡ 实战练习
设计一个支持多租户的 AI 平台,包含资源隔离、配额管理、使用量统计。思考:如何平衡隔离性和资源利用率?
性能调优实战
🎯 学习目标
- •写出你知道的性能瓶颈点:CPU、内存、磁盘 IO、网络
- •设计一个简单的压测方案:并发数 / QPS / 目标延迟
- +1 更多目标
💡 核心概念
⚡ 实战练习
对一个生产系统进行性能分析,识别瓶颈并实施优化。建立性能基准测试,持续监控性能变化。
灾难恢复与备份
🎯 学习目标
- •理解 RTO / RPO 的含义
- •写一个简单灾备方案:每日备份 / 跨区备份 / 恢复演练
- +1 更多目标
💡 核心概念
⚡ 实战练习
设计并实施一个灾难恢复方案,包含数据备份、系统恢复流程。定期进行恢复演练,验证恢复能力。
架构演进与重构
🎯 学习目标
- •回想一个你用过的系统,从简单到复杂是怎么演进的
- •为你现在想做的 SecondMind 写一个演进路线:v0(单体)→ v1(简单拆分)→ v2(服务化 + MLOps)
- +1 更多目标
💡 核心概念
⚡ 实战练习
分析一个现有系统的架构问题,设计演进方案并制定迁移计划。建立技术债务管理流程,持续改进架构。
系统文档与知识管理
🎯 学习目标
- •承认一个事实:没有文档的系统没人敢接手 😂
- •写一个 ADR(架构决策记录)模板:背景 / 决策 / 备选方案 / 后果
- +1 更多目标
💡 核心概念
⚡ 实战练习
为一个 AI 系统编写完整的架构文档,包含设计文档、运维手册、故障处理指南。建立文档维护流程,保持文档更新。
毕业项目:端到端架构设计
🎯 学习目标
- •选一个真实你想做的系统:SecondMind 个人 AI / autopartsalive 智能客服 / AI 架构师学习平台
- •写出完整架构文档提纲:背景&目标、业务流程、技术架构图、数据架构、MLOps、运维&监控、安全&合规、演进路线
💡 核心概念
⚡ 实战练习
设计一个完整的生产级 AI 系统架构,包含所有模块:数据、训练、推理、监控、安全、运维,输出详细的架构设计文档和实施计划。
❓常见问题
准备好开始你的 AI 架构师之旅了吗?
30 天系统学习,从基础到生产级架构,成为具备工程化能力的 AI 架构师