安排
|
主题 |
AI技术概述、环境搭建与数据探索 |
AI技术概述 |
1. 什么是 AI
• 人工智能(Artificial Intelligence)的基本概念与目标:让机器具备感知、推理、学习和决策的能力。
• 从弱人工智能(专用型)到强人工智能(通用型)的区分。
• AI 在企业和社会中的典型应用:自动驾驶、智能客服、预测分析等。
2. AI 技术的核心内容
• 感知:语音识别、图像识别、自然语言理解。
• 学习:机器学习、深度学习、强化学习。
• 推理与决策:知识图谱、专家系统、智能规划。
• 人机交互:推荐系统、智能助手、对话系统。
3. AI 发展历程
• 初期探索阶段:符号主义与基于规则的专家系统。
• 算法驱动阶段:统计学习、机器学习逐步兴起。
• 深度学习崛起:算力提升 + 大数据推动的突破。
• 现阶段:大模型与生成式 AI 带来的全新浪潮。
4. 机器学习框架
• Python 生态:scikit-learn、TensorFlow、PyTorch。
• 框架特点:传统机器学习、深度学习、分布式训练。
• 开源与社区支持:快速原型、产业落地与生态完善。
• 企业常用开发环境:Jupyter、Conda、Docker 等。
5. 常见算法谱系
• 监督学习:回归、分类(决策树、逻辑回归、SVM)。
• 无监督学习:聚类(K-Means、DBSCAN)、降维(PCA)。
• 集成学习:随机森林、Boosting 系列(XGBoost、LightGBM)。
• 强化学习:智能体与环境交互,探索与利用平衡。
6. 机器学习、深度学习与大模型技术关系
• 机器学习:AI 的核心分支,强调从数据中学习规律。
• 深度学习:机器学习的子领域,依赖神经网络结构。
• 大模型:深度学习的延伸,参数量巨大、跨任务迁移能力强。
• 三者关系:递进与包含,机器学习 → 深度学习 → 大模型。溢与归一化处理 |
软件工程概述 |
1. AI 项目目标与需求分析
• 明确业务问题与应用场景,识别核心目标与成功指标。
2. 业务价值与技术挑战评估
• 平衡业务收益与技术难点,确定项目的可行性与优先级。
3. 开发流程与生命周期管理
• 引入软件工程思想,覆盖需求→设计→实现→测试→部署→维护的完整闭环。
4. 团队协作与角色分工
• 确定业务、数据、算法、工程等角色的责任边界,建立高效协作机制。
5. 质量保障与风险控制
• 强调版本管理、可复现性、测试与监控,确保模型的稳定性、合规性与长期价值 |
机器学习开发环境本机搭建 |
1. Python与虚拟环境配置
• 安装 Python,使用 Conda 或 venv 创建独立环境,避免依赖冲突。
• 介绍包管理工具(pip、conda),演示基本命令。
2. 用科学计算与机器学习库安装
• NumPy、Pandas、Matplotlib、scikit-learn 等核心库。
• 可选扩展:XGBoost、LightGBM、TensorFlow、PyTorch。
3. 开发工具与 IDE 使用
• Jupyter Notebook、VS Code、PyCharm 的对比与使用。
• 配置插件、快捷键与调试工具,提升开发效率。
4. 环境管理与版本控制
• requirements.txt、environment.yml 的使用。
• Git 结合 Conda/Pip 环境,确保实验可复现。
5. 离线与私有化部署支持
• 本地镜像源设置、离线包安装方法。
• 企业场景下的数据隔离与安全合规要求。 |
数据探索与可视化 |
1. 数据整体概览
• 查看数据规模、字段类型与基本统计特征。
• 使用 describe()、info() 等方法快速了解数据分布。
2. 单变量分析
• 分析数值型变量的均值、方差、分布曲线。
• 分析类别型变量的频率分布与占比情况。
3. 多变量关系探索
• 相关性分析(Pearson、Spearman)。
• 特征间关系可视化:散点图、热力图、成对图(pairplot)。
4. 数据分布与异常检测
• 直方图、箱线图、密度图,用于识别偏态分布与异常点。
• 分析长尾分布与数据偏移。
5. 可视化工具与最佳实践
• 使用 Matplotlib、Seaborn、Plotly 进行数据可视化。
• 可视化在数据报告与业务解读中的作用与注意事项。 |
案例实战 |
数据探索:
• 汽车行业 — 预测性维护
• 金融行业 — 信用评分与风控
• 能源 / 制造业 — 负荷预测与产线分析 |
数据预处理与特征工程 |
数据清洗与缺失值处理 |
1. 数据质量检查
• 检查重复值、缺失率、异常分布,评估整体数据质量。
2. 缺失值识别
• 区分系统性缺失(非随机)与随机缺失,对应不同处理策略。
3. 缺失值填充方法
• 均值、中位数、众数填充,时间序列插值,基于 KNN/回归预测填充。
4. 缺失值删除与保留
• 缺失过多时删除样本或特征,保留对业务有价值的特征。
5. 自动化处理工具
• 使用 scikit-learn 的 SimpleImputer、IterativeImputer 等组件实现流水线化填补。 |
特征编码与数值转换 |
1. 类别变量编码
• One-Hot、Ordinal、Target Encoding,不同场景的适用性。
2. 数值标准化
• Z-score 标准化,让特征均值为 0、方差为 1,适用于距离度量算法。
3. 数值归一化
• Min-Max 归一化,将特征缩放到固定区间 [0,1],适合神经网络。
4. 特征分箱与离散化
• 将连续变量分组,提升模型解释性与鲁棒性。
5. 时间与日期特征处理
• 提取年、月、日、星期、时段等特征,便于捕捉周期规律。 |
异常值与不平衡样本处理 |
1. 异常值检测
• 常用方法:箱线图(IQR)、Z-score、聚类/密度方法。
2. 异常值处理策略
• 删除异常点、缩尾处理(Winsorization)、替换为合理值。
3. 样本不平衡问题
• 识别少数类(违约、欺诈等),防止模型偏向多数类。
4. 过采样与欠采样
• 使用 SMOTE 增加少数类,或随机/聚类欠采样多数类。
5. 代价敏感学习
• 在模型中引入类别权重,关注少数类的重要性。 |
特征构造与特征选择 |
1. 特征构造
• 通过数学运算、交叉组合或领域知识创造新特征。
2. 统计特征提取
• 均值、方差、偏度、峰度、移动窗口统计值。
3. 过滤法选择
• 使用相关性、卡方检验、互信息来筛选重要特征。
4. 包裹法选择
• 使用递归特征消除(RFE)结合模型迭代筛选特征。
5. 嵌入法选择
• 基于 Lasso 回归或树模型的特征重要性选择。 |
降维与特征表示学习 |
1. 降维的意义
• 降低维度可减少噪声、加快训练、缓解维度灾难。
2. 线性降维方法
• 主成分分析(PCA)、线性判别分析(LDA)。
3. 非线性降维方法
• t-SNE、UMAP,用于高维数据可视化和模式发现。
4. 自动编码器(Autoencoder)
• 使用神经网络进行特征压缩与表示学习。
5. 应用场景
• 数据可视化、聚类前处理、去除冗余特征、提升模型泛化能力 |
案例实战 |
数据预处理与特征工程:
• 汽车行业 — 预测性维护
• 金融行业 — 信用评分与风控
• 能源 / 制造业 — 负荷预测与产线分析 |
分类与回归模型 |
线性回归与逻辑回归 |
1. 线性回归原理
• 目标:预测连续变量,假设因变量与自变量呈线性关系。
2. 最小二乘法与正则化
• OLS 基本公式,L1/L2 正则化(Lasso/Ridge)防止过拟合。
3. 逻辑回归原理
• Sigmoid 函数实现二分类,输出概率值。
4. 多分类扩展
• One-vs-Rest、Softmax 回归支持多类别预测。 |
树模型与神经网络模型 |
1. 决策树基本思想
• 通过特征划分数据,构建树结构完成分类或回归。
2. 随机森林与梯度提升
• Bagging 与 Boosting 思想;XGBoost、LightGBM 优化点。
3. 神经网络结构
• 感知机、隐藏层、激活函数,模拟人脑神经元。
4. 训练与优化
• 反向传播与梯度下降;学习率、批大小的影响。 |
更多机器学习模型 |
1. 支持向量机(SVM)
• 最大化间隔超平面;核函数应对非线性问题。
2. k 最近邻(kNN)
• 基于距离度量的惰性学习方法。
3. 朴素贝叶斯
• 基于条件概率与独立性假设,适合文本分类。
4. 贝叶斯网络与概率图模型
• 建模变量间的依赖关系,支持因果推理。
5. 强化学习简介
• 智能体与环境交互,策略优化与探索–利用平衡。 |
模型评估与优化 |
1. 数据集划分
• 训练集、验证集、测试集,避免信息泄漏。
2. 评估指标
• 回归:MAE、MSE、R²;分类:Accuracy、Precision、Recall、F1、ROC-AUC。
3. 交叉验证
• K-Fold、Stratified K-Fold 提升评估稳定性。
4. 超参数调优
• Grid Search、Random Search、Bayesian Optimization。
5. 模型解释与监控
• 特征重要性、SHAP/LIME;上线后的性能漂移监测。 |
案例实战 |
模型训练与评估:
• 汽车行业 — 预测性维护
• 金融行业 — 信用评分与风控
• 能源 / 制造业 — 负荷预测与产线分析 |
聚类分析与集成学习 |
无监督学习与聚类分析 |
1. 无监督学习简介
• 没有标签数据,目标是发现数据的潜在结构。
2. 聚类方法分类
• 划分型(K-Means)、层次型(Agglomerative)、密度型(DBSCAN)。
3. 聚类评估方法
• 轮廓系数、CH 指数、DB 指数。
4. 降维结合聚类
• 使用 PCA/t-SNE/UMAP 降维后进行聚类可视化。 |
聚类应用与异常检测 |
1. 客户分群
• 基于消费特征将客户分成不同群体,用于精准营销。
2. 图像分割
• 通过聚类将像素点归类,自动识别区域。
3. 时间序列异常
• 聚类与异常检测结合,用于设备故障预测。
4. 算法工具
• IsolationForest、LOF、One-Class SVM。 |
集成学习核心技术 |
1. 集成学习思想
• 通过组合多个弱学习器获得更强性能。
2. Bagging 方法
• 并行训练多个模型,降低方差(随机森林)。
3. Boosting 方法
• 顺序训练弱学习器,逐步纠正误差(AdaBoost、GBDT、XGBoost、LightGBM)。
4. Stacking 与 Voting
• 模型融合方法,利用元学习器提升效果。 |
案例实战 |
1. 聚类案例
• 汽车行业:基于驾驶数据(如速度、里程等)对司机行为进行聚类分析,适用于驾驶模式识别与安全分析
• 金融行业:基于 S&P 500 公司财务比率应用 Elkan 的 K-Means 聚类,展现潜在投资机会
• 能源与制造业:通过聚类对能源使用行为进行分群分析,用于用户画像与消费模式识别
2. 集成学习案例
• 各行业:AWS 推出的 AutoML 框架,支持表格、图像、时间序列数据的自动训练与集成,适用于自动化模型开发
• 能源与制造业:针对碳强度预测使用加权集成学习方法(EnsembleCI),在多个区网格上稳定提升准确率 |
课程总结与答疑 |