求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Model Center   Code  
会员   
 
 
 
开班计划 | 技术学院 | 管理学院 | 嵌入式学院 | 机械 | 军工学院 | 定向培养 | 专家指导  
 电话 English
成功案例   品质保证
成功案例
中航信 数据湖架构原理与应
某医疗磁 数据采集与处理
某科技公 大数据(Hadoo
诺基亚 Python基础
天津电子 Elasticse
中国电信 数据仓库与数据挖掘
某航天科 MySQL性能优化

相关课程  
并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
HBase原理与高级应用
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理
 
全部课程 >大数据  
数据湖架构原理与应用
734 次浏览  32 次
Johansson老师
曾任某企业大数据平台架构师
 
地点时间:北京、上海、深圳根据报名开班
课程费用:5700元/人
报公开课  
企业内训:可以根据企业需求,定制内训,详见 内训学习手册


认证方式:
培训前了解能力模型。
培训后进行能力评测:
  • 在线考试
  • 能力分析,给出学习建议
  • 合格者颁发证书,作为职业技能资格证明


       数据湖是目前企业数据积累和管理的有效方法,本课程结合数据湖的技术架构,讲解数据湖有关的技术框架和相关技术,并提供数据湖的行业案例解读。

    培训目标:
    • 了解数据湖有关的理论
    • 了解数据湖的发展历程
    • 学习数据湖架构
    • 学习应用数据湖进行数据资产积累和数据治理
    • 学习数据湖有关的技术框架
    •    √   flink+hudi构建实时数据湖
    •    √   flink+paimon构建实时数据湖
    • 学习数据湖的安全与访问控制方案
    • 学习数据湖的行业案例
    培训对象:数据管理员,数据主管
    学员基础:对数据存储和数据开发相关的技术有所了解
    授课方式:讲师讲授+案例解析+互动交流+现场答疑
    培训内容:2天
    主题 课程安排
    数据湖概览 1. 什么是数据湖
    2. 数据湖的基本特征
    3. 为什么需要数据湖
    4. 数据湖的典型架构都有什么
    5. 数据湖和数据仓库的区别和联系
    6. 主流数据湖厂商的解决方案
        •  AWS 数据湖解决方案
        •  华为
        •  阿里云
        •  Azure
    数据湖的架构 1. 数据湖 的功能架构
    2. 数据湖 的逻辑架构
        •  数据处理层技术框架
        •  数据访问层技术框架
        •  数据存储层技术框架
        •  数据接入层技术框架
    3. 数据湖 的应用架构
    4. 数据湖系统的部署
    5. 数据湖系统的运行
    6. 数据湖系统的管理
    数据湖的应用 1. 数据湖的典型应用场景:
        •  数据资产管理
        •  数据质量治理
        •  数据分析应用
    2. 数据湖应用视角的数据湖的建设路线图
    数据湖建设的基本过程、相关工作与处理内容 1. 数据摸底,对数据进行全面调研,包括:数据来源、数据类型、数据形态、数据模式、数据总量、数据增量等。
    2. 模型抽象,针对企业 / 组织的业务特点梳理归类各类数据,对数据进行领域划分,形成数据管理的元数据,同时基于元数据,构建通用的数据模型。
    3. 数据接入,确定要接入的数据源。根据数据源,确定所必须的数据接入技术能力,完成数据接入技术选型,接入的数据至少包括:数据源元数据、原始数据元数据、原始数据。各类数据分类存放。
    4. 融合治理,利用各类计算引擎对数据进行加工处理,形成各类中间数据 / 结果数据,并妥善管理保存。数据湖应该具备完善的数据开发、任务管理、任务调度的能力,详细记录数据的处理过程。在治理的过程中,会需要更多的数据模型和指标模型。
    5. 业务支撑,在通用模型基础上,各个业务部门定制自己的细化数据模型、数据使用流程、数据访问服务。
    数据湖平台的建设 1. 尽可能多地汇聚业务数据,将数据拉通,形成数据资产
        •  从传统的业务数据库中采集数据,形成数据仓库与集市
        •  更多样化的结构化数据采集,形成数据湖
    2. 尽可能地挖掘数据价值,用数据驱动业务发展
        •  采用 T+1 模式,利用每晚的窗口期进行数据分析与挖掘
        •  采用的技术: Spark+Hive
        •  采用 Flink 流式计算,按照固定程式进行数据分析与挖掘
        •  采用的技术: Flink+ 数据湖
        •  数据分析人员对实时数据按照非固定程式进行自由的分析与探索
        •  采用的技术: Clickhouse/Kylin
    数据湖相关的技术 1. 非结构化采集与流式计算的痛点:
        •  Hive 数据库的结构化存储已不能适应非结构化采集的需求
        •  非结构化采集到的数据更加丰富多样,需要更加灵活的存储形式
    2. 数据湖的存储形式:
        •  保留原有的数据格式,原封不动地进行数据存储
        •  不同的物理存储形式,统一的元数据管理
        •  数据湖的特征:原始、海量、多样
    3. 数据的入湖形式:
        •  批量导入: ETL 工具、 Hadoop 任务脚本
        •  数据同步:数据快照、 binlog 数据库日志同步
        •  流式计算: Flume+Kafka+Flink
    数据湖的典型技术框架 1. Hadoop 分布式大数据
        •  分布式并行计算的设计理念
        •  移动计算而不是移动数据
        •  Hadoop 生态圈
        •  HDFS 分布式文件系统
        •  基于 HDFS 的数据仓库建设
    2. 实时数据湖 hudi
        •  湖与仓结合的一体化建设思路
        •  实时数据湖 hudi 的系统架构
        •  实时数据湖 hudi 的高可用分布式安装部署
        •  实时数据湖 hudi 的项目实操
    3. 实时数据湖 paimon
        •  Flink Table Store 与 Paimon 的诞生
        •  实时数据湖 Hudi 与 paimon 的比较
        •  实时数据湖 paimon 的系统架构
        •  实时数据湖 paimon 的高可用分布式安装部署
        •  实时数据湖 paimon 的项目实操
    数据采集 1. 大数据采集建设思路
        •  数据湖概念及其设计应用
        •  流批一体化建设思路
    2. 结构化数据采集
        •  sqoop 工作原理
        •  Hive 数据库导入
    3.非结构化数据采集
        •  批处理 vs. 实时分析
        •  实时分析系统应用实战
            1 ) Flink 及其原理
            2 ) Kafka 及其原理
            3 ) Log4j+Kafka+Flink+Hudi 的应用实战
    4.实操:基于日志的用户行为分析的实战演练
    数据湖中的数据处理框架:流式计算 1. 大数据计算模型
       •  MapReduce 计算模型
       •  Spark/SparkSQL 批量运算及其痛点
       •  准实时流式计算 Spark Streaming
       •  基于事件的流式计算 Flink
    2.Flink流式计算框架
       •  批流一体的设计思想
       •  Flink 流式计算的原理
       •  Flink 的系统架构
       •  Flink 设计实战
       •  项目实战:用户行为分析
    1) 用 Log4j 从应用系统采集日志,写入 Kafka
    2 )用 Flink 从 Kafka 中获取数据,用 Flink SQL 进行数据分析
    3 )将数据分析结果写入到 Hudi 中,并实现事务的管理
    数据治理(基于数据湖进行) 1.大数据治理的建设思路
       •  数据治理面临的难题及其建设思路
       •  基于大数据的数据治理的建设过程
    2.大数据 ETL过程
       •  数据入湖的标准化管理与数据质量管理
       •  ETL 过程:数据清洗、转换、集成
       •  Flink+Hudi 的开发实战
       •  清洗、转换、集成、装载的应用案例
    3.数据体系建设
       •  数据体系规划:原始数据层、数据仓库层、数据集市层
       •  数据资产管理:资产规划、数据治理、标签管理
       •  数据质量管理:元数据管理、数据血缘管理
       •  数据仓库建设:多维数据建模、事实表、维度表、聚合表
    4. 实操:基于数据湖的数据治理实战演练
       
    734 次浏览  32 次
    其他人还看了课程
    Flume & Kafka原理与实践  1839 次浏览
    Spark内存计算框架原理与实践应用  2546 次浏览
    基于Flink搭建流计算平台  3244 次浏览
    Kafka 原理剖析及实战演练  1733 次浏览
    Storm与大数据分析  2072 次浏览
    大数据平台架构与应用实战  3635 次浏览
    定制内训



    咨询服务:数据库设计与性能优化
    咨询目标 对客户的数据库进行性能评价,设计优化,管理优化
    咨询范围 数据库性能评价,数据库结构优化,数据访问SQL优化。
    咨询方式 现有数据库调查,问题诊断,性能评价。
    对数据库进行逻辑结构优化,对数据库进行访问SQL优化。
    建立数据库运行监控平台。运行监控与优化方法指导。
    成功案例 建设银行,中国农业银行,中国工商银行,中航信
    详情咨询:010-62670969, zhgx@uml.net.cn
    课程计划
    MBSE(基于模型的系统工程)6-20[北京]
    大模型微调原理与实操 6-20[厦门]
    基于模型的数据治理与中台 6-25[北京]
    DoDAF规范、模型与实例 6-24[北京]
    UAF架构体系与实践 7-4[北京]
    Linux内核编程及设备驱动 7-25[北京]