求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Model Center   Code  
会员   
 
 
 
开班计划 | 技术学院 | 管理学院 | 嵌入式学院 | 机械 | 军工学院 | 定向培养 | 专家指导 | 角色培养  
 电话 English
成功案例   品质保证
 
成功案例
某核电企 软件设计重构与代码
某集成电 多核体系的软件仿真
某电力能 设计模式原理及应用
南方航空 软件设计方法与实践
某跨国公 软件设计原理与实
爱立信( 软件设计
Moto 设计模式
 
全部课程 >大数据  
大数据平台搭建与高性能计算
6812 次浏览  55 次
赵老师
曾任京东大数据学院首席大数据技术专家
 
地点时间:北京、上海、 深圳根据报名开班
课程费用5000元/人 
报公开课  
企业内训:可以根据企业需求,定制内训,详见 内训学习手册



认证方式:
培训前了解能力模型。
培训后进行能力评测:
  • 在线考试
  • 能力分析,给出学习建议
  • 合格者颁发证书,作为职业技能资格证明


    大数据是企业IT资产业务增值的重要资源,企业需要构建自己的大数据平台,这样才能让挖掘数据的商业价值,实现基于数据的监控、分析和决策。大数据平台涉及多个方面:记录、采集、存储、计算、分析、展示、决策。这不但需要一个完整的大数据平台支持,而且要保证性能和可靠性。本课程由京东大数据学院首席专家带领您构建完整大数据平台,并实现高性能的应用计算。

    培训目标:
    • 彻底理解Hadoop代表的云计算实现技术的能力;
    • 具备开发自己网盘的能力;
    • 具备修改HDFS源码和具体源码实现的能力;
    • 具备掌握MapReduce内部运行和实现细节并改造MapReduce的能力;
    • 具备掌握Hive企业级开发和管理的能力;
    • 掌握Spark的企业级开发的所有核心内容,包括Spark架构设计、Spark内核剖析、Shark、SparkSQL、SparkStreaming、、机器学习MLlib、SparkonYarn、JobServer等;
    • 掌握Spark和Hadoop协同工作,能够通过Spark和Hadoop轻松应对大数据的业务需求;
    • 掌握企业线上生产系统中应用Spark/Hadoop成功案例,以及与现有企业BI平台整合的方案。
    • 掌握Flink的的体系架构,以及企业线上生产系统中应用Flink成功案例
    • 掌握Flink Runtime、DataSet API、DataStream API,以及Flink SQL的使用
    培训对象:大数据架构师、数据平台开发工程师
    学员基础:具有一定的数据设计、开发和管理经验
    授课方式:定制课程 + 案例讲解 + 小组讨论,60%案例讲解,40%实践演练
    培训内容:2天
    主题 章节 详细内容
    大数据平台概览
    大数据处理平台架构基础 大数据的产生背景、发展历程
    大数据和云计算的关系
    大数据应用需求以及潜在价值分析
    业界最新的大数据技术发展态势与应用趋势
    大数据项目的技术选型与大数据处理系统架构设计
    “互联网+”时代下的电子商务、制造业、零售批发业、电信运营商、互联网金融业、网上银行、电子政务、移动互联网、教育信息化等行业应用实践与应用案例剖析
    业界主流的大数据技术产品与项目解决方案 国内外主流的大数据解决方案介绍
    当前大数据解决方案与传统数据库方案的剖析比较
    Apache大数据平台方案剖析
    CDH大数据平台方案剖析
    HDP大数据平台方案剖析
    开源的大数据生态系统平台剖析
    Hadoop大数据平台核心技术剖析 Hadoop的发展历程以及产业界的实际应用介绍
    Hadoop大数据平台架构
    基于Hadoop平台的PB级大数据存储管理与分析处理的工作原理与机制
    Hadoop的核心组件剖析
    Hadoop的大数据体系架构
    Hadoop的起源 什么是大数据?
    专有云上的混搭平台设计
    OLTP系统和OLAP系统
    数据仓库的基本概念
    Google的基本思想
    Hadoop的体系结构和原理 海量数据的存储HDFS
  • 文件上传的过程
  • 文件下载的过程
  • 原信息的合并过程

  • 海量数据的计算MapReduce
  • YARN的工作原理
  • MapReduce作业执行的过程和原理

  • HBase的基本架构
    Hadoop集群模式的安装和配置 单机模式的安装和配置
    伪分布模式的安装和配置
    免密码登录的原理
    配置Hadoop的集群环境
    配置和使用HUE
    Hadoop HA 集群的规划
    安装Zookeeper集群环境
    安装配置hadoop集群
    验证HDFS的HA
    验证YARN
    Hadoop应用案例分析 案例一:互联网应用架构
    案例二:日志分析
    案例三:Hadoop在淘宝的应用
    分布式文件系统HDFS
    访问HDFS 使用命令行访问HDFS文件系统
    使用Java编程接口访问HDFS文件系统
    HDFS的高级特性 什么是HDFS的联盟
    HDFS的回收站
    HDFS的配额
    HDFS的权限
    HDFS的底层原理 什么是RPC通信?
    什么是动态代理?
    HDFS的优化 NameNode的优化策略
    SecondaryNameNode的优化策略
    文件存储的优化
    HDFS的瓶颈和解决方案
    HDFS的NameNode联盟 什么是NameNode的联盟
    NameNode的体系架构
    搭建NameNode的联盟架构
    分布式计算模型MapReduce和Yan
    MapReduce基础编程 MapReduce的基本概念和原理
    数据在MapReduce的流动过程
    第一个MapReduce程序和运行MapReduce程序
    MapReduce高级编程 序列化的基本概念
    编写MapReduce序列化的程序
    MapReduce的排序
    MapReduce的分区
    什么是Combiner
    什么是Shuffle
    Yarn的优化 Yarn的内存使用
    Yarn的资源调度策略
    MapReduce任务的优化
    数据分析引擎
    数据分析之Hive
  • 什么是Hive和Hive的体系结构
  • 安装和配置Hive
  • 使用HQL
  • Hive的客户端:CLI客户端和Java编程
  • 接口

  • Hive的自定义函数
    Hive的数据模型
  • 内部表
  • 分区表
  • 桶表
  • 视图
  • 物化视图
  • 数据分析之Pig 什么是Pig和Pig的体系结构
    安装和配置Pig
    Pig的数据模型
    使用Pig Latin语句进行数据的分析
    Pig的自定义函数
    数据交换引擎
    Sqoop和Flume 使用Sqoop进行数据的交换
  • 什么是Sqoop体系结构
  • 使用Sqoop进行数据的交换

  • 使用Flume进行数据的采集
  • 什么是Flume体系结构
  • 使用Flume进行数据的采集
  • 基于HDFS的存储系统
    HBase数据库 HBase简介及其在Hadoop中的位置
    HBASE的伪分布的搭建
    HBASE的底层存储模型和基本概念
    HBASE的读写原理
    HBASE的高级特性
    HBase的体系结构
    HBASE Shell
    HBASE的批量导入
    HBASE的Java客户端
    分布式协调服务
    Zookeeper 什么是Zookeeper?及其功能
    Zookeeper的体系结构和数据模型
    Zookeeper安装及测试
    Zookeeper的Java接口
    Watcher及内部事件
    Zookeeper的工作原理
    基于ZooKeeper的大数据的HA架构及其实现
    基于Spark的大数据分析平台
    Scala编程语言 Scala语言基础
    Scala语言的面向对象
    Scala语言的函数式编程
    Scala中的集合
    Scala语言的高级特性
    Spark Core核心 什么是Spark?Spark生态圈
    Spark的体系结构与安装部署
    执行Spark Demo程序
    Spark运行机制及原理分析
    Spark的算子
    Spark RDD的高级算子
    Spark基础编程案例
    Spark SQL数据分析引擎 Spark SQL基础
    使用数据源
    性能优化
    在IDEA中开发Spark SQL程序
    Spark Streaming流式计算框架 Structured Streaming基础
    Structured Streaming的程序模型
    Datasets 和 DataFrames API
    管理和监控流式查询
    基于Hadoop和Spark大数据平台的机器学习
    Mahout和Spark MLlib 在机器学习中的使用,常用算法实战(Mahout和spark MLlib)
  • Mahout与Spark MLLib
  • 基于协同过滤算法
  • 基于ALS协同过滤算法
  • 基于Spark MLLib的逻辑回归算法
  • 下一代大数据处理引擎
    Flink Flink介绍
    Flink的数据集
    Flink两种执行模型
    Flink-流计算模型-有界数据集处理
    Flink的DataSet API
    Flink的DataStream API
    广播变量、累加器和计数器
    状态管理和恢复
    Window和Time
    Flink Table & SQL
       
    6812 次浏览  55 次
    其他人还看了课程
    数据中台架构与建设  6145 次浏览
    大数据平台搭建与高性能计算  6812 次浏览
    银行数据挖掘、精准营销与风险分析  3454 次浏览
    ELK应用架构与实践方法  1875 次浏览
    Power BI 建模专家培训  2009 次浏览
    Flume & Kafka原理与实践  2203 次浏览
    定制内训