🏗️ 硬核 AI 架构师 30 天 Bootcamp

从单体到分布式,从模型到生产系统,30 天掌握 AI 架构设计核心能力

🎯 课程定位

这是一门面向有后端开发或机器学习基础的工程师的实战课程。 我们不会教你如何训练模型,而是专注于如何设计、部署和运维生产级的 AI 系统。 每天 20 分钟,通过系统化的学习路径,让你从“会写代码”进阶到“会设计架构”。

👥 适合人群

  • 后端工程师:想转型 AI 架构,需要系统学习 AI 系统的工程化实践
  • ML 工程师:熟悉模型训练,但缺乏生产级系统设计和部署经验
  • 全栈开发者:希望掌握 AI 系统的端到端架构设计能力
  • 技术负责人:需要为团队选择技术栈、设计架构方案

🎓 你将学到

分布式系统设计、微服务架构、容器化部署、数据管道、模型服务化、MLOps 实践、性能优化、成本控制等 AI 架构师必备的核心技能。 每周一个实战项目,最终完成一个完整的生产级 AI 系统架构设计。

📚

系统化学习路径

4 周渐进式学习,从基础架构到生产级系统,循序渐进掌握核心技能

💻

实战项目驱动

每周实战项目 + 最终毕业设计,理论结合实践,构建可落地的架构方案

🚀

生产级最佳实践

学习业界最佳实践,掌握高可用、可扩展、安全的 AI 系统架构设计

Week 1

AI 架构基础与系统设计

掌握 AI 系统的基础架构设计原则,理解分布式系统、微服务架构在 AI 场景下的应用

Day 1Week 1

AI 架构师的角色与职责

🎯 学习目标

  • 在脑子里区分:"写模型的人(ML Engineer)"、"写业务的人(Backend / Product)"、"设计整套系统的人(AI Architect)"
  • 画一张简单架构图:前端 → API → 模型服务 → 数据库 → 日志 / 监控
  • +1 更多目标

💡 核心概念

AI 架构师能力模型:懂业务 → 懂数据 → 懂模型 → 懂工程 → 懂系统设计AI 系统 vs 传统系统:多了模型不确定性、训练流程、数据迭代、推理延迟技术选型方法论:先问场景是什么?延迟/吞吐要求?预算?团队技术栈?

实战练习

架构图一定要画出:"数据从哪来 → 进模型 → 出去给谁用"。今天不追求细节,追求 "我知道有哪些盒子,盒子之间怎么连"。

查看详情 →
Day 2Week 1

分布式系统基础

🎯 学习目标

  • 理解三个问题:网络可能断、机器可能挂、消息可能丢
  • 用文字解释 CAP:C 一致性、A 可用性、P 分区容错
  • +1 更多目标

💡 核心概念

CAP 定理:网络一旦不可靠,C / A 只能偏重一边服务发现:多个服务实例怎么被别人"找到"?(Consul / etcd / Kubernetes Service)负载均衡:反向代理(Nginx / Envoy)、四层 / 七层负载均衡的区别

实战练习

用 Docker Compose 起两个后端 + 一个 Nginx,让 Nginx 做反向代理,就是一个迷你"分布式服务集群"。想象以后你的模型服务其实也是这样被多实例部署的。

查看详情 →
Day 3Week 1

微服务架构设计

🎯 学习目标

  • 写出"为什么要拆微服务"的 3 个理由 & 2 个坏处
  • 拿"AI 推荐系统"举例,拆出 3 个服务:用户/用户行为服务、特征&模型服务、推荐结果服务
  • +1 更多目标

💡 核心概念

服务边界划分:按业务(User / Order / Model)、按数据(谁拥有这份数据)REST vs gRPC:REST 更通用、易调试;gRPC 更高效,更适合内网服务间调用通信模式:同步请求(HTTP/gRPC)、异步消息(Kafka / MQ)

实战练习

写一个简单设计说明:"推荐系统微服务架构:服务列表 + 每个服务负责什么 + 彼此怎么调用"。不写代码也没关系,重点是"拆服务的脑子"。

查看详情 →
Day 4Week 1

容器化与编排

🎯 学习目标

  • 看一下一个典型 Dockerfile 的结构(FROM / COPY / RUN / CMD)
  • 在脑里回答:为什么要用 Docker?为什么需要 Kubernetes?
  • +1 更多目标

💡 核心概念

Docker 多阶段构建:减少镜像体积,让部署更快Kubernetes 基本对象:Pod(最小运行单元)、Service(让别人能访问 Pod)、Deployment(控制副本数量与滚动更新)Helm:把一堆 K8s 配置打包成"应用模板"

实战练习

想象一下 Day3 的推荐系统部署到 K8s:每个服务 2 个 Pod,前面有 Ingress / API Gateway,后面有数据库 / Redis / Kafka。

查看详情 →
Day 5Week 1

数据管道设计

🎯 学习目标

  • 写出你知道的"数据流来源":日志、埋点、交易、设备、第三方接口
  • 对比:批处理适合什么场景?流处理适合什么场景?
  • +1 更多目标

💡 核心概念

批处理 vs 流处理:批(每天/每小时跑一次,离线)vs 流(来一条处理一条,实时)Kafka / Redis Streams 作用:解耦生产者 / 消费者,做缓冲 & 抗峰值数据血缘 (Data Lineage):这条特征 / 指标是从哪些原始数据算出来的?

实战练习

想象一个"实时监控用户行为 → 更新推荐特征"的管道:Web 日志 → Kafka → 流式计算 → 特征库。

查看详情 →
Day 6Week 1

模型服务化架构

🎯 学习目标

  • 写下你见过的"模型部署方式":脚本调用 / REST API / Batch 离线
  • 盘一盘"模型升级"的问题:怎么灰度?怎么回滚?
  • +1 更多目标

💡 核心概念

MaaS(Model-as-a-Service):模型就是一个 API,谁用谁调模型版本控制:不同实验对应不同版本,线上版本必须可追溯对应训练数据 & 配置灰度发布:按用户比例 / 按流量比例分流不同模型版本

实战练习

设计一个简单 JSON 结构存模型版本信息:model_name, version, created_at, metric, status。想象一个路由层:根据 version/策略选择调用哪个模型。

查看详情 →
Day 7Week 1

Week 1 实战项目

🎯 学习目标

  • 选一个你最关心的业务场景:AI 问答系统 / 推荐系统 / 智能客服
  • 写一个"一页纸架构设计":模块列表、数据从哪里来流向哪里、模型在哪里部署、前端/API/数据库/日志怎么连

💡 核心概念

架构文档 ≠ 画漂亮图,而是讲清:为谁服务?谁在用?核心链路是什么?关键技术栈为什么这样选?技术选型:模型服务(自己部署 vs 第三方 API)、数据库(OLTP vs OLAP)、消息队列(Kafka / RabbitMQ / Redis Stream)

实战练习

给你的架构图起个名字,比如 "SecondMind QA v0.1"。后面每一周都可以往这张图上加东西,而不是重新发明。

查看详情 →
Week 2

模型训练与推理优化

深入理解模型训练流程,掌握推理性能优化技术,学习模型压缩与加速方法

Day 8Week 2

训练基础设施

🎯 学习目标

  • 区分:单机训练 / 多 GPU / 多机多卡
  • 用例子解释:数据并行 vs 模型并行
  • +1 更多目标

💡 核心概念

GPU 资源调度:哪些任务优先?如何避免 GPU 空转?数据并行:把数据拆到不同 GPU,同一模型副本模型并行:把一个大模型拆到多个 GPU

实战练习

在脑中画一个 "Trainer 集群":有 scheduler,有 worker,有日志。

查看详情 →
Day 9Week 2

模型优化技术

🎯 学习目标

  • 用你能理解的话解释:什么是量化?
  • 写出"做知识蒸馏"的流程:Teacher → Student
  • +1 更多目标

💡 核心概念

INT8 / FP16 量化:用更低精度数字存储权重,换速度 & 内存知识蒸馏:大模型教小模型,换取更快的推理模型剪枝:删掉"贡献不大"的权重/通道

实战练习

记住一句话:"不一定永远要最强的模型,而是场景里最合适的模型。"

查看详情 →
Day 10Week 2

推理性能优化

🎯 学习目标

  • 列出推理延迟的 3 个来源:模型、网络、队列
  • 写出什么是 Batching,以及有什么坑(延迟 vs 吞吐)
  • +1 更多目标

💡 核心概念

动态批处理 (Dynamic Batching):在短时间窗口内收集多个请求,一起跑缓存:Prompt 缓存、Embedding 缓存异步推理:请求先确认,再异步返回结果

实战练习

在纸上画出:API → 请求队列 → Batch 合并器 → 模型 → 返回。

查看详情 →
Day 11Week 2

模型服务框架

🎯 学习目标

  • 了解 TorchServe / Triton 的定位
  • 想象有"一台统一的推理服务器",多个模型挂在上面
  • +1 更多目标

💡 核心概念

TorchServe:部署 PyTorch 模型的标准化方式Triton:NVIDIA 推出的通用推理服务器模型热加载 / 热更新:不停机替换模型版本

实战练习

思考:你的"SecondMind"将来是:调别人 API(OpenAI 等)还是挂在你自己的 Triton 集群上?

查看详情 →
Day 12Week 2

边缘计算部署

🎯 学习目标

  • 写出"云端 vs 边缘"的差异
  • 想一个需要在边缘跑 AI 的场景:汽车 / 工厂 / 相机
  • +1 更多目标

💡 核心概念

TensorFlow Lite / Core ML / ONNX Runtime模型压缩、蒸馏、量化在边缘场景的重要性在线更新 vs 本地常驻模型

实战练习

思考边缘部署的约束和优化策略

查看详情 →
Day 13Week 2

成本优化策略

🎯 学习目标

  • 写下云成本的组成:计算 / 存储 / 网络 / 第三方 API
  • 回想你最近一次用大模型,有没有过度浪费(上下文太大 / 模型太强)
  • +1 更多目标

💡 核心概念

GPU 利用率:低利用率 = 钱烧在空气里Spot 实例:便宜,但可能被回收成本监控:按 team / project 统计费用

实战练习

养成成本意识,优化资源使用

查看详情 →
Day 14Week 2

Week 2 实战项目

🎯 学习目标

  • 选一个你关心的"AI 服务"(比如 QA / Summarization / RAG)
  • 写出性能优化报告大纲:现状(延迟 / 成本 / 负载)、可能的瓶颈、优化思路(模型、批处理、缓存、基础设施)

💡 核心概念

性能优化方法论瓶颈识别与分析优化方案设计

实战练习

完成一个完整的性能优化报告

查看详情 →
Week 3

数据工程与 MLOps

掌握数据工程最佳实践,学习 MLOps 全流程,构建可复用的机器学习基础设施

Day 15Week 3

数据架构设计

🎯 学习目标

  • 写出你听过的:Data Lake / Data Warehouse
  • 画一个三层数据分层:Raw / Staging / Curated
  • +1 更多目标

💡 核心概念

Data Lake vs Data Warehouse:Data Lake(存储原始数据,支持多种格式)vs Data Warehouse(结构化数据,优化查询)现代架构:Lakehouse(结合两者优势)数据分层:Raw Layer(原始数据,不做处理)、Staging Layer(清洗、标准化)、Curated Layer(业务就绪,可直接使用)

实战练习

画一个数据流图:原始数据 → 清洗 → 特征工程 → 模型训练。思考:哪些数据需要实时处理,哪些可以批处理?

查看详情 →
Day 16Week 3

特征工程平台

🎯 学习目标

  • 写一句话解释:Feature Store 是什么
  • 用用户推荐举例:哪些是在线特征,哪些是离线特征
  • +1 更多目标

💡 核心概念

Feature Store:统一管理在线和离线特征,保证一致性在线特征:实时计算,低延迟(如用户当前会话)离线特征:批量计算,高吞吐(如历史统计)+1

实战练习

使用 Feast 或 Tecton 搭建特征存储平台。思考:哪些特征需要实时计算,哪些可以预计算?

查看详情 →
Day 17Week 3

MLOps 流水线

🎯 学习目标

  • 列出训练流水线基本步骤:数据准备 → 训练 → 评估 → 部署
  • 用 MLflow/Kubeflow 想象一个 pipeline:Data Ingest → Train → Eval → Register Model
  • +1 更多目标

💡 核心概念

MLflow:模型生命周期管理,支持实验追踪、模型注册、部署Kubeflow:Kubernetes 原生的 ML 工作流平台Pipeline 编排:自动化训练流程,减少人工干预+1

实战练习

使用 MLflow 或 Kubeflow 构建一个端到端的 MLOps 流水线。思考:如何将手工步骤自动化?

查看详情 →
Day 18Week 3

实验管理与追踪

🎯 学习目标

  • 回忆你以往是否有"跑完实验忘了参数"
  • 设计一个实验追踪表头:run_id / params / metrics / notes
  • +1 更多目标

💡 核心概念

MLflow Tracking:记录实验参数、指标、代码版本Weights & Biases:可视化实验对比,超参数调优超参数搜索:网格搜索、随机搜索、贝叶斯优化+1

实战练习

使用 MLflow 或 W&B 追踪多个实验,对比不同超参数配置的效果。建立实验管理习惯,避免重复实验。

查看详情 →
Day 19Week 3

模型监控与可观测性

🎯 学习目标

  • 写出"模型上线后可能坏掉"的 3 种方式
  • 设计三个指标:线上精度(或替代指标)、延迟、错误率
  • +1 更多目标

💡 核心概念

数据漂移检测:输入数据分布变化,导致模型性能下降模型性能监控:实时跟踪准确率、召回率等指标异常检测:识别异常请求、异常输出+1

实战练习

实现一个模型监控系统,包含性能指标、数据漂移检测、异常告警。建立监控仪表板,实时了解模型健康状态。

查看详情 →
Day 20Week 3

数据质量保障

🎯 学习目标

  • 想象"突然有一列数据全是 null 会怎样"
  • 写出你觉得重要的数据质量规则:范围、唯一性、不能为空
  • +1 更多目标

💡 核心概念

数据 Schema 验证:确保数据结构符合预期数据质量规则:范围检查、唯一性、非空、格式验证Great Expectations:数据质量测试框架,类似单元测试+1

实战练习

使用 Great Expectations 或类似工具构建数据质量检查流程。建立数据质量监控,及时发现数据问题。

查看详情 →
Day 21Week 3

Week 3 实战项目

🎯 学习目标

  • 给你正在想象的"AI 系统"画一个 MLOps 流程图:数据 → 特征 → 训练 → 部署 → 监控
  • 写一段话:哪部分你已经有经验,哪部分是你完全没做过的(未来重点)

💡 核心概念

MLOps 架构设计:端到端的机器学习生命周期管理基础设施即代码:使用代码管理基础设施配置最佳实践总结:整合 Week 3 所学知识

实战练习

设计并实现一个完整的 MLOps 平台,包含数据管道、特征存储、训练流水线、模型服务、监控系统。输出架构文档,总结最佳实践。

查看详情 →
Week 4

生产级系统架构

学习生产环境的最佳实践,掌握高可用、可扩展、安全的 AI 系统架构设计

Day 22Week 4

高可用架构设计

🎯 学习目标

  • 写出高可用的三大关键词:冗余 / 自动恢复 / 健康检查
  • 画一个"多可用区部署"的模型服务架构
  • +1 更多目标

💡 核心概念

多可用区部署:跨区域冗余,避免单点故障故障转移:自动切换到备用系统健康检查:定期检查服务状态,及时发现问题+1

实战练习

设计一个高可用的模型服务架构,包含多区域部署、自动故障转移。思考:如何平衡可用性和成本?

查看详情 →
Day 23Week 4

可扩展性设计

🎯 学习目标

  • 区分水平扩展 / 垂直扩展
  • 写一个自动扩缩容策略:CPU > 70% 连续 5 分钟 → 扩容
  • +1 更多目标

💡 核心概念

水平扩展 vs 垂直扩展:水平(加机器)vs 垂直(升级硬件)自动扩缩容:根据负载自动调整实例数量容量规划:预测未来负载,提前准备资源+1

实战练习

实现一个支持自动扩缩容的模型服务,进行压力测试验证。建立容量规划流程,避免资源浪费或不足。

查看详情 →
Day 24Week 4

安全与合规

🎯 学习目标

  • 列出 AI 系统的 3 个安全点:访问控制 / 数据安全 / 模型滥用
  • 写一个简单安全架构:Auth 服务、API Gateway、加密存储
  • +1 更多目标

💡 核心概念

数据加密:传输加密(TLS)和存储加密身份认证与授权:OAuth、JWT、RBACAPI 安全:限流、防攻击、输入验证+1

实战练习

为一个 AI 系统设计安全架构,包含认证、授权、数据加密、审计日志。建立安全审查流程,定期检查安全漏洞。

查看详情 →
Day 25Week 4

多租户架构

🎯 学习目标

  • 解释"多租户 = 一套系统,服务多家公司/团队"
  • 列出三种隔离方式:数据库级 / schema 级 / 行级
  • +1 更多目标

💡 核心概念

资源隔离策略:确保不同租户数据隔离命名空间隔离:Kubernetes Namespace、数据库 Schema配额管理:限制每个租户的资源使用+1

实战练习

设计一个支持多租户的 AI 平台,包含资源隔离、配额管理、使用量统计。思考:如何平衡隔离性和资源利用率?

查看详情 →
Day 26Week 4

性能调优实战

🎯 学习目标

  • 写出你知道的性能瓶颈点:CPU、内存、磁盘 IO、网络
  • 设计一个简单的压测方案:并发数 / QPS / 目标延迟
  • +1 更多目标

💡 核心概念

性能分析工具:Profiler、APM、监控工具瓶颈识别:CPU、内存、IO、网络瓶颈分析缓存策略:多级缓存,减少重复计算+1

实战练习

对一个生产系统进行性能分析,识别瓶颈并实施优化。建立性能基准测试,持续监控性能变化。

查看详情 →
Day 27Week 4

灾难恢复与备份

🎯 学习目标

  • 理解 RTO / RPO 的含义
  • 写一个简单灾备方案:每日备份 / 跨区备份 / 恢复演练
  • +1 更多目标

💡 核心概念

备份策略:全量备份、增量备份、差异备份恢复时间目标 (RTO):系统恢复所需时间恢复点目标 (RPO):允许丢失的数据量+1

实战练习

设计并实施一个灾难恢复方案,包含数据备份、系统恢复流程。定期进行恢复演练,验证恢复能力。

查看详情 →
Day 28Week 4

架构演进与重构

🎯 学习目标

  • 回想一个你用过的系统,从简单到复杂是怎么演进的
  • 为你现在想做的 SecondMind 写一个演进路线:v0(单体)→ v1(简单拆分)→ v2(服务化 + MLOps)
  • +1 更多目标

💡 核心概念

架构演进模式:单体 → 模块化 → 微服务 → 服务网格重构最佳实践:渐进式重构、测试驱动、小步快跑技术债务评估:识别和量化技术债务+1

实战练习

分析一个现有系统的架构问题,设计演进方案并制定迁移计划。建立技术债务管理流程,持续改进架构。

查看详情 →
Day 29Week 4

系统文档与知识管理

🎯 学习目标

  • 承认一个事实:没有文档的系统没人敢接手 😂
  • 写一个 ADR(架构决策记录)模板:背景 / 决策 / 备选方案 / 后果
  • +1 更多目标

💡 核心概念

架构决策记录 (ADR):记录重要架构决策的原因和后果系统文档:架构文档、API 文档、运维手册运维手册:故障处理、部署流程、监控指标+1

实战练习

为一个 AI 系统编写完整的架构文档,包含设计文档、运维手册、故障处理指南。建立文档维护流程,保持文档更新。

查看详情 →
Day 30Week 4

毕业项目:端到端架构设计

🎯 学习目标

  • 选一个真实你想做的系统:SecondMind 个人 AI / autopartsalive 智能客服 / AI 架构师学习平台
  • 写出完整架构文档提纲:背景&目标、业务流程、技术架构图、数据架构、MLOps、运维&监控、安全&合规、演进路线

💡 核心概念

端到端架构设计:整合 30 天所学知识技术选型:基于需求选择合适的技术栈实施计划:分阶段实施,降低风险+1

实战练习

设计一个完整的生产级 AI 系统架构,包含所有模块:数据、训练、推理、监控、安全、运维,输出详细的架构设计文档和实施计划。

查看详情 →

常见问题

准备好开始你的 AI 架构师之旅了吗?

30 天系统学习,从基础到生产级架构,成为具备工程化能力的 AI 架构师