| 主题 |
课程安排 |
主题1:AI原生架构的理念革命与技术重构
核心目标:建立AI原生思维,理解其与传统微服务架构的根本性差异。 |
第 1 章:理念革命
AI 原生 vs. 传统微服务 |
- 确定性逻辑 vs. 概率性推理:从“业务流驱动”到“数据流驱动”的范式转变。
- 核心差异对比:系统行为、状态管理、迭代驱动力、成功指标的全方位剖析。
- AI原生架构的构成要素:数据、模型、算力与服务网格的融合。 |
|
第2章:核心模式AI原生核心服务模式 |
- MLOps流水线:自动化、可复现的模型生命周期管理(数据->特征->训练->评估->部署)。
- 模型服务化:将模型封装为高性能、高并发的API服务(Triton, TorchServe)。
- 特征平台:保证训练与推理数据一致性的基石。
- 实验管理与模型注册:实现模型研发的治理与协作。 |
| 第3章:技术栈演进AI原生部署栈全景图 |
- 基础设施层:Kubernetes为核心,从CPU到GPU/NPU的异构计算调度。
- MLOps平台层:特征存储、实验跟踪、模型注册中心的功能与价值。
- 服务与编排层:模型服务器、工作流编排器、向量数据库的作用。
- 应用层:AI应用框架如何简化复杂AI应用的开发。 |
主题2:军工场景下的AI原生架构实战方案
核心目标:学会将AI原生架构应用于国产化、离线、无中心节点等特殊军工环境。
|
第4章:环境约束
军工研发的核心挑战与应对原则 |
- 国产化生态适配:国产CPU、GPU、OS下的软件栈选型与适配策略。
- 离线/断网环境:如何实现模型、镜像、依赖库的离线分发与更新。
- 无中心节点要求:边缘计算场景下的分布式、自组织服务架构。 |
第 5 章:解决方案
特定场景的架构设计 |
- 国产化解决方案:基于国产硬件的容器镜像构建与Kubernetes集群部署。
- 离线部署方案:搭建私有镜像仓库、模型仓库和MLOps平台的完整流程。
- 边缘协同方案:联邦学习与边缘智能体的设计,实现“云边端”协同推理。 |
第 6 章:安全与可靠性
军工 AI 系统的特殊考量 |
- 模型安全:针对对抗性攻击的防御策略与模型鲁棒性加固。
- 数据隐私:联邦学习在数据不出域条件下的应用。
- 系统可靠性:在恶劣网络与硬件条件下,服务的降级、容错与自恢复机制。 |
主题 3 : AI 微服务关键技术详解
核心目标:深入理解 AI 微服务化过程中涉及的各项关键技术组件及其实现原理。 |
第 7 章:服务治理
AI 服务的拆分、通信与治理 |
- 服务拆分策略:如何按模型、功能或数据域对AI系统进行微服务拆分。
- 服务注册与发现:在动态的AI服务环境中,如何实现服务的自动注册与发现。
- 远程过程调用:为何gRPC是AI微服务间通信的首选,及其在性能上的优势。
- API网关设计:网关在AI应用中的特殊作用(路由、鉴权、计量、缓存)。 |
第 8 章:可靠性与弹性
保障 AI 服务的高可用 |
- 负载均衡:针对AI推理高计算负载特性的负载均衡策略。
- 熔断与限流:防止雪崩效应,如何对不确定的模型推理进行有效的流量控制。
- 容错与重试:针对模型服务可能出现的瞬时失败,设计合理的重试机制。 |
第 9 章:数据与事务
AI 系统中的数据一致性 |
- 分布式事务的挑战:在AI系统中,强一致性并非总是首选。
- 最终一致性模式:通过事件驱动架构实现数据的最终一致。
- 特征数据的管理:重申特征平台在解决“训练-服务偏斜”问题中的核心价值。 |
主题 4 :综合实战与未来展望
核心目标:通过集成性演示巩固所学知识,并解答学员在实际项目中遇到的疑难问题。 |
第 10 章:实战演示
端到端 AI 微服务部署演示 |
- 演示环境说明:介绍演示案例的背景与技术栈(Kubernetes, Kubeflow)。
- 流水线演示:从代码提交、数据准备到模型自动训练、评估和注册的完整MLOps流程。
- 服务化与治理演示:演示模型如何被部署为服务,并通过API网关、负载均衡器对外提供高可用接口。
- 弹性测试演示:模拟高并发流量,展示系统的限流、熔断等弹性能力。 |
第 11 章:问题答疑
针对性解决学员问题 |
- 收集问题:系统性地收集学员在两天培训中及自身项目中遇到的问题。
- 分组讨论与解答:对共性问题进行集中讲解,对特殊问题进行分析与指导。
- 最佳实践分享:分享在大型项目中实施AI原生架构的经验与教训。 |
第 12 章:总结与展望
课程总结与技术前瞻 |
- 两天内容回顾:串讲核心知识点,形成完整的知识体系。
- 技术趋势展望:AI智能体、多模态大模型等新技术对架构带来的新挑战与机遇。
- 后续学习路径:为学员推荐进一步深入学习的方向、资源和社区。 |