课程：数据湖架构原理与应用

咨询

成功案例

相关课程

全部课程 >大数据

数据湖架构原理与应用

3919 次浏览

60 次


Johansson老师
曾任某企业大数据平台架构师

地点时间：北京、上海、深圳根据报名开班

课程费用：5700元/人

报公开课

要内训

企业内训：可以根据企业需求,定制内训,详见内训学习手册

认证方式：
培训前了解能力模型。
培训后进行能力评测：

在线考试

能力分析，给出学习建议

合格者颁发证书，作为职业技能资格证明

数据湖是目前企业数据积累和管理的有效方法，本课程结合数据湖的技术架构，讲解数据湖有关的技术框架和相关技术，并提供数据湖的行业案例解读。

培训目标：

了解数据湖有关的理论
了解数据湖的发展历程
学习数据湖架构
学习应用数据湖进行数据资产积累和数据治理
学习数据湖有关的技术框架
√ flink+hudi构建实时数据湖
√ flink+paimon构建实时数据湖
学习数据湖的安全与访问控制方案
学习数据湖的行业案例

培训对象：数据管理员，数据主管

学员基础：对数据存储和数据开发相关的技术有所了解

授课方式：讲师讲授+案例解析+互动交流+现场答疑

培训内容：2天

主题	课程安排
数据湖概览	1. 什么是数据湖 2. 数据湖的基本特征 3. 为什么需要数据湖 4. 数据湖的典型架构都有什么 5. 数据湖和数据仓库的区别和联系 6. 主流数据湖厂商的解决方案 • AWS 数据湖解决方案 • 华为 • 阿里云 • Azure
数据湖的架构	1. 数据湖的功能架构 2. 数据湖的逻辑架构 • 数据处理层技术框架 • 数据访问层技术框架 • 数据存储层技术框架 • 数据接入层技术框架 3. 数据湖的应用架构 4. 数据湖系统的部署 5. 数据湖系统的运行 6. 数据湖系统的管理
数据湖的应用	1. 数据湖的典型应用场景： • 数据资产管理 • 数据质量治理 • 数据分析应用 2. 数据湖应用视角的数据湖的建设路线图
数据湖建设的基本过程、相关工作与处理内容	1. 数据摸底，对数据进行全面调研，包括：数据来源、数据类型、数据形态、数据模式、数据总量、数据增量等。 2. 模型抽象，针对企业 / 组织的业务特点梳理归类各类数据，对数据进行领域划分，形成数据管理的元数据，同时基于元数据，构建通用的数据模型。 3. 数据接入，确定要接入的数据源。根据数据源，确定所必须的数据接入技术能力，完成数据接入技术选型，接入的数据至少包括：数据源元数据、原始数据元数据、原始数据。各类数据分类存放。 4. 融合治理，利用各类计算引擎对数据进行加工处理，形成各类中间数据 / 结果数据，并妥善管理保存。数据湖应该具备完善的数据开发、任务管理、任务调度的能力，详细记录数据的处理过程。在治理的过程中，会需要更多的数据模型和指标模型。 5. 业务支撑，在通用模型基础上，各个业务部门定制自己的细化数据模型、数据使用流程、数据访问服务。
数据湖平台的建设	1. 尽可能多地汇聚业务数据，将数据拉通，形成数据资产 • 从传统的业务数据库中采集数据，形成数据仓库与集市 • 更多样化的结构化数据采集，形成数据湖 2. 尽可能地挖掘数据价值，用数据驱动业务发展 • 采用 T+1 模式，利用每晚的窗口期进行数据分析与挖掘 • 采用的技术： Spark+Hive • 采用 Flink 流式计算，按照固定程式进行数据分析与挖掘 • 采用的技术： Flink+ 数据湖 • 数据分析人员对实时数据按照非固定程式进行自由的分析与探索 • 采用的技术： Clickhouse/Kylin
数据湖相关的技术	1. 非结构化采集与流式计算的痛点： • Hive 数据库的结构化存储已不能适应非结构化采集的需求 • 非结构化采集到的数据更加丰富多样，需要更加灵活的存储形式 2. 数据湖的存储形式： • 保留原有的数据格式，原封不动地进行数据存储 • 不同的物理存储形式，统一的元数据管理 • 数据湖的特征：原始、海量、多样 3. 数据的入湖形式： • 批量导入： ETL 工具、 Hadoop 任务脚本 • 数据同步：数据快照、 binlog 数据库日志同步 • 流式计算： Flume+Kafka+Flink
数据湖的典型技术框架	1. Hadoop 分布式大数据 • 分布式并行计算的设计理念 • 移动计算而不是移动数据 • Hadoop 生态圈 • HDFS 分布式文件系统 • 基于 HDFS 的数据仓库建设 2. 实时数据湖 hudi • 湖与仓结合的一体化建设思路 • 实时数据湖 hudi 的系统架构 • 实时数据湖 hudi 的高可用分布式安装部署 • 实时数据湖 hudi 的项目实操 3. 实时数据湖 paimon • Flink Table Store 与 Paimon 的诞生 • 实时数据湖 Hudi 与 paimon 的比较 • 实时数据湖 paimon 的系统架构 • 实时数据湖 paimon 的高可用分布式安装部署 • 实时数据湖 paimon 的项目实操
数据采集	1. 大数据采集建设思路 • 数据湖概念及其设计应用 • 流批一体化建设思路 2. 结构化数据采集 • sqoop 工作原理 • Hive 数据库导入 3.非结构化数据采集 • 批处理 vs. 实时分析 • 实时分析系统应用实战 1 ） Flink 及其原理 2 ） Kafka 及其原理 3 ） Log4j+Kafka+Flink+Hudi 的应用实战 4.实操：基于日志的用户行为分析的实战演练
数据湖中的数据处理框架：流式计算	1. 大数据计算模型 • MapReduce 计算模型 • Spark/SparkSQL 批量运算及其痛点 • 准实时流式计算 Spark Streaming • 基于事件的流式计算 Flink 2.Flink流式计算框架 • 批流一体的设计思想 • Flink 流式计算的原理 • Flink 的系统架构 • Flink 设计实战 • 项目实战：用户行为分析 1）用 Log4j 从应用系统采集日志，写入 Kafka 2 ）用 Flink 从 Kafka 中获取数据，用 Flink SQL 进行数据分析 3 ）将数据分析结果写入到 Hudi 中，并实现事务的管理
数据治理(基于数据湖进行)	1.大数据治理的建设思路 • 数据治理面临的难题及其建设思路 • 基于大数据的数据治理的建设过程 2.大数据 ETL过程 • 数据入湖的标准化管理与数据质量管理 • ETL 过程：数据清洗、转换、集成 • Flink+Hudi 的开发实战 • 清洗、转换、集成、装载的应用案例 3.数据体系建设 • 数据体系规划：原始数据层、数据仓库层、数据集市层 • 数据资产管理：资产规划、数据治理、标签管理 • 数据质量管理：元数据管理、数据血缘管理 • 数据仓库建设：多维数据建模、事实表、维度表、聚合表 4. 实操：基于数据湖的数据治理实战演练

报公开课

要内训

3919 次浏览

60 次

其他人还看了课程

工业互联网：智能制造与数字化平台建设 2580 次浏览

数据治理与数据资产管理 9478 次浏览

大数据搜索框架（ElasticSearch）与应用 6159 次浏览

深入浅出学Zookeeper 5658 次浏览

数据湖架构原理与应用 3919 次浏览

Scala编程语言 5075 次浏览

基于Hadoop大数据平台数据治理 6291 次浏览

	咨询服务：数据库设计与性能优化

咨询目标	对客户的数据库进行性能评价，设计优化，管理优化
咨询范围	数据库性能评价，数据库结构优化，数据访问SQL优化。
咨询方式	现有数据库调查，问题诊断，性能评价。对数据库进行逻辑结构优化，对数据库进行访问SQL优化。建立数据库运行监控平台。运行监控与优化方法指导。
成功案例	建设银行，中国农业银行，中国工商银行，中航信

详情咨询：010-62670969， zhgx@uml.net.cn

课程计划

UAF架构体系与实践 7-23[北京]

SysML和EA系统设计与建模 7-16[深圳]

Spec 驱动开发(SDD)实战 7-28[北京]

AI辅助软件测试方法与实践 7-31[在线]

AI智能体开发技术实践 8-6[上海]

基于UML和EA系统分析设计 8-20[上海]