求知
文章
文库
Lib
视频
iPerson
课程
认证
咨询
工具
讲座
Model Center
Code
会员
找课
开班计划
|
技术学院
|
管理学院
|
嵌入式学院
|
机械
|
军工学院
|
定向培养
|
专家指导
电话
English
成功案例
品质保证
成功案例
中航信 数据湖架构原理与应
某医疗磁 数据采集与处理
某科技公 大数据(Hadoo
诺基亚 Python基础
天津电子 Elasticse
中国电信 数据仓库与数据挖掘
某航天科 MySQL性能优化
更多...
相关课程
并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
HBase原理与高级应用
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理
更多...
全部课程
>
大数据
数据湖架构原理与应用
995 次浏览
52 次
Johansson老师
曾任某企业大数据平台架构师
地点时间:
北京、
上海、深圳根据报名开班
课程费用:
5700元/人
报公开课
要内训
企业内训:
可以根据企业需求,定制内训,详见
内训学习手册
认证方式:
培训前了解能力模型。
培训后进行能力评测:
在线考试
能力分析,给出学习建议
合格者颁发证书,作为职业技能资格证明
数据湖是目前企业数据积累和管理的有效方法,本课程结合数据湖的技术架构,讲解数据湖有关的技术框架和相关技术,并提供数据湖的行业案例解读。
培训目标:
了解数据湖有关的理论
了解数据湖的发展历程
学习数据湖架构
学习应用数据湖进行数据资产积累和数据治理
学习数据湖有关的技术框架
√ flink+hudi构建实时数据湖
√ flink+paimon构建实时数据湖
学习数据湖的安全与访问控制方案
学习数据湖的行业案例
培训对象:
数据管理员,数据主管
学员基础:
对数据存储和数据开发相关的技术有所了解
授课方式:
讲师讲授+案例解析+互动交流+现场答疑
培训
内容:2天
主题
课程安排
数据湖概览
1. 什么是数据湖
2. 数据湖的基本特征
3. 为什么需要数据湖
4. 数据湖的典型架构都有什么
5. 数据湖和数据仓库的区别和联系
6. 主流数据湖厂商的解决方案
AWS 数据湖解决方案
华为
阿里云
Azure
数据湖的架构
1. 数据湖 的功能架构
2. 数据湖 的逻辑架构
数据处理层技术框架
数据访问层技术框架
数据存储层技术框架
数据接入层技术框架
3. 数据湖 的应用架构
4. 数据湖系统的部署
5. 数据湖系统的运行
6. 数据湖系统的管理
数据湖的应用
1. 数据湖的典型应用场景:
数据资产管理
数据质量治理
数据分析应用
2. 数据湖应用视角的数据湖的建设路线图
数据湖建设的基本过程、相关工作与处理内容
1. 数据摸底,对数据进行全面调研,包括:数据来源、数据类型、数据形态、数据模式、数据总量、数据增量等。
2. 模型抽象,针对企业 / 组织的业务特点梳理归类各类数据,对数据进行领域划分,形成数据管理的元数据,同时基于元数据,构建通用的数据模型。
3. 数据接入,确定要接入的数据源。根据数据源,确定所必须的数据接入技术能力,完成数据接入技术选型,接入的数据至少包括:数据源元数据、原始数据元数据、原始数据。各类数据分类存放。
4. 融合治理,利用各类计算引擎对数据进行加工处理,形成各类中间数据 / 结果数据,并妥善管理保存。数据湖应该具备完善的数据开发、任务管理、任务调度的能力,详细记录数据的处理过程。在治理的过程中,会需要更多的数据模型和指标模型。
5. 业务支撑,在通用模型基础上,各个业务部门定制自己的细化数据模型、数据使用流程、数据访问服务。
数据湖平台的建设
1. 尽可能多地汇聚业务数据,将数据拉通,形成数据资产
从传统的业务数据库中采集数据,形成数据仓库与集市
更多样化的结构化数据采集,形成数据湖
2. 尽可能地挖掘数据价值,用数据驱动业务发展
采用 T+1 模式,利用每晚的窗口期进行数据分析与挖掘
采用的技术: Spark+Hive
采用 Flink 流式计算,按照固定程式进行数据分析与挖掘
采用的技术: Flink+ 数据湖
数据分析人员对实时数据按照非固定程式进行自由的分析与探索
采用的技术: Clickhouse/Kylin
数据湖相关的技术
1. 非结构化采集与流式计算的痛点:
Hive 数据库的结构化存储已不能适应非结构化采集的需求
非结构化采集到的数据更加丰富多样,需要更加灵活的存储形式
2. 数据湖的存储形式:
保留原有的数据格式,原封不动地进行数据存储
不同的物理存储形式,统一的元数据管理
数据湖的特征:原始、海量、多样
3. 数据的入湖形式:
批量导入: ETL 工具、 Hadoop 任务脚本
数据同步:数据快照、 binlog 数据库日志同步
流式计算: Flume+Kafka+Flink
数据湖的典型技术框架
1. Hadoop 分布式大数据
分布式并行计算的设计理念
移动计算而不是移动数据
Hadoop 生态圈
HDFS 分布式文件系统
基于 HDFS 的数据仓库建设
2. 实时数据湖 hudi
湖与仓结合的一体化建设思路
实时数据湖 hudi 的系统架构
实时数据湖 hudi 的高可用分布式安装部署
实时数据湖 hudi 的项目实操
3. 实时数据湖 paimon
Flink Table Store 与 Paimon 的诞生
实时数据湖 Hudi 与 paimon 的比较
实时数据湖 paimon 的系统架构
实时数据湖 paimon 的高可用分布式安装部署
实时数据湖 paimon 的项目实操
数据采集
1. 大数据采集建设思路
数据湖概念及其设计应用
流批一体化建设思路
2. 结构化数据采集
sqoop 工作原理
Hive 数据库导入
3.非结构化数据采集
批处理 vs. 实时分析
实时分析系统应用实战
1 ) Flink 及其原理
2 ) Kafka 及其原理
3 ) Log4j+Kafka+Flink+Hudi 的应用实战
4.实操:基于日志的用户行为分析的实战演练
数据湖中的数据处理框架:流式计算
1. 大数据计算模型
MapReduce 计算模型
Spark/SparkSQL 批量运算及其痛点
准实时流式计算 Spark Streaming
基于事件的流式计算 Flink
2.Flink流式计算框架
批流一体的设计思想
Flink 流式计算的原理
Flink 的系统架构
Flink 设计实战
项目实战:用户行为分析
1) 用 Log4j 从应用系统采集日志,写入 Kafka
2 )用 Flink 从 Kafka 中获取数据,用 Flink SQL 进行数据分析
3 )将数据分析结果写入到 Hudi 中,并实现事务的管理
数据治理(基于数据湖进行)
1.大数据治理的建设思路
数据治理面临的难题及其建设思路
基于大数据的数据治理的建设过程
2.大数据 ETL过程
数据入湖的标准化管理与数据质量管理
ETL 过程:数据清洗、转换、集成
Flink+Hudi 的开发实战
清洗、转换、集成、装载的应用案例
3.数据体系建设
数据体系规划:原始数据层、数据仓库层、数据集市层
数据资产管理:资产规划、数据治理、标签管理
数据质量管理:元数据管理、数据血缘管理
数据仓库建设:多维数据建模、事实表、维度表、聚合表
4. 实操:基于数据湖的数据治理实战演练
报公开课
要内训
995 次浏览
52 次
其他人还看了课程
《企业级Hadoop大数据处理最佳实践》
2405 次浏览
Apache Kylin大数据分析和机器学习应用实战
2158 次浏览
数据治理与数据中台管理
3489 次浏览
大数据平台构建、应用与管理
2208 次浏览
大数据分析专题-R语言培训
7198 次浏览
CDH Cloudera Manager管理实战与案例解析
3682 次浏览
咨询服务:数据库设计与性能优化
咨询目标
对客户的数据库进行性能评价,设计优化,管理优化
咨询范围
数据库性能评价,数据库结构优化,数据访问SQL优化。
咨询方式
现有数据库调查,问题诊断,性能评价。
对数据库进行逻辑结构优化,对数据库进行访问SQL优化。
建立数据库运行监控平台。运行监控与优化方法指导。
成功案例
建设银行,中国农业银行,中国工商银行,中航信
详情咨询:010-62670969, zhgx@uml.net.cn
课程计划
面向对象业务分析与系统设计 10-16[线上]
嵌入式软件架构设计-高级实践 10-17[线上]
Qlik Sense数据分析技术 10-17线上]
基于 UML 和EA进行分析设计 10-22[北京]
用户研究与用户建模 10-24[北京]
QT应用开发 10-24[北京]