大数据平台搭建与高性能计算-火龙果软件

咨询

成功案例

全部课程 >大数据

大数据平台搭建与高性能计算

12289 次浏览

64 次


赵老师
曾任京东大数据学院首席大数据技术专家

地点时间：上海+在线：7月14-15日；北京、深圳根据报名开班

课程费用：5000元/人

报公开课

要内训

企业内训：可以根据企业需求,定制内训,详见内训学习手册

认证方式：
培训前了解能力模型。
培训后进行能力评测：

在线考试

能力分析，给出学习建议

合格者颁发证书，作为职业技能资格证明

大数据是企业IT资产业务增值的重要资源，企业需要构建自己的大数据平台，这样才能让挖掘数据的商业价值，实现基于数据的监控、分析和决策。大数据平台涉及多个方面：记录、采集、存储、计算、分析、展示、决策。这不但需要一个完整的大数据平台支持，而且要保证性能和可靠性。本课程由京东大数据学院首席专家带领您构建完整大数据平台，并实现高性能的应用计算。

培训目标：

彻底理解Hadoop代表的云计算实现技术的能力；
具备开发自己网盘的能力；
具备修改HDFS源码和具体源码实现的能力；
具备掌握MapReduce内部运行和实现细节并改造MapReduce的能力；
具备掌握Hive企业级开发和管理的能力；
掌握Spark的企业级开发的所有核心内容，包括Spark架构设计、Spark内核剖析、Shark、SparkSQL、SparkStreaming、、机器学习MLlib、SparkonYarn、JobServer等；
掌握Spark和Hadoop协同工作，能够通过Spark和Hadoop轻松应对大数据的业务需求；
掌握企业线上生产系统中应用Spark/Hadoop成功案例，以及与现有企业BI平台整合的方案。
掌握Flink的的体系架构，以及企业线上生产系统中应用Flink成功案例
掌握Flink Runtime、DataSet API、DataStream API，以及Flink SQL的使用

培训对象：大数据架构师、数据平台开发工程师

学员基础：具有一定的数据设计、开发和管理经验

授课方式：定制课程 + 案例讲解 + 小组讨论，60%案例讲解，40%实践演练

培训内容：2天

主题	章节	详细内容
大数据平台概览	大数据处理平台架构基础	大数据的产生背景、发展历程大数据和云计算的关系大数据应用需求以及潜在价值分析业界最新的大数据技术发展态势与应用趋势大数据项目的技术选型与大数据处理系统架构设计 “互联网+”时代下的电子商务、制造业、零售批发业、电信运营商、互联网金融业、网上银行、电子政务、移动互联网、教育信息化等行业应用实践与应用案例剖析
	业界主流的大数据技术产品与项目解决方案	国内外主流的大数据解决方案介绍当前大数据解决方案与传统数据库方案的剖析比较 Apache大数据平台方案剖析 CDH大数据平台方案剖析 HDP大数据平台方案剖析开源的大数据生态系统平台剖析
	Hadoop大数据平台核心技术剖析	Hadoop的发展历程以及产业界的实际应用介绍 Hadoop大数据平台架构基于Hadoop平台的PB级大数据存储管理与分析处理的工作原理与机制 Hadoop的核心组件剖析
Hadoop的大数据体系架构	Hadoop的起源	什么是大数据？专有云上的混搭平台设计 OLTP系统和OLAP系统数据仓库的基本概念 Google的基本思想
	Hadoop的体系结构和原理	海量数据的存储HDFS 文件上传的过程文件下载的过程原信息的合并过程海量数据的计算MapReduce YARN的工作原理 MapReduce作业执行的过程和原理 HBase的基本架构
	Hadoop集群模式的安装和配置	单机模式的安装和配置伪分布模式的安装和配置免密码登录的原理配置Hadoop的集群环境配置和使用HUE
	Hadoop HA	集群的规划安装Zookeeper集群环境安装配置hadoop集群验证HDFS的HA 验证YARN
	Hadoop应用案例分析	案例一：互联网应用架构案例二：日志分析案例三：Hadoop在淘宝的应用
分布式文件系统HDFS	访问HDFS	使用命令行访问HDFS文件系统使用Java编程接口访问HDFS文件系统
	HDFS的高级特性	什么是HDFS的联盟 HDFS的回收站 HDFS的配额 HDFS的权限
	HDFS的底层原理	什么是RPC通信？什么是动态代理？
	HDFS的优化	NameNode的优化策略 SecondaryNameNode的优化策略文件存储的优化 HDFS的瓶颈和解决方案
	HDFS的NameNode联盟	什么是NameNode的联盟 NameNode的体系架构搭建NameNode的联盟架构
分布式计算模型MapReduce和Yan	MapReduce基础编程	MapReduce的基本概念和原理数据在MapReduce的流动过程第一个MapReduce程序和运行MapReduce程序
	MapReduce高级编程	序列化的基本概念编写MapReduce序列化的程序 MapReduce的排序 MapReduce的分区什么是Combiner 什么是Shuffle
	Yarn的优化	Yarn的内存使用 Yarn的资源调度策略 MapReduce任务的优化
数据分析引擎	数据分析之Hive	什么是Hive和Hive的体系结构安装和配置Hive 使用HQL Hive的客户端：CLI客户端和Java编程接口 Hive的自定义函数 Hive的数据模型内部表分区表桶表视图物化视图
数据分析引擎	数据分析之Pig	什么是Pig和Pig的体系结构安装和配置Pig Pig的数据模型使用Pig Latin语句进行数据的分析 Pig的自定义函数
数据交换引擎	Sqoop和Flume	使用Sqoop进行数据的交换什么是Sqoop体系结构使用Sqoop进行数据的交换使用Flume进行数据的采集什么是Flume体系结构使用Flume进行数据的采集
基于HDFS的存储系统	HBase数据库	HBase简介及其在Hadoop中的位置 HBASE的伪分布的搭建 HBASE的底层存储模型和基本概念 HBASE的读写原理 HBASE的高级特性 HBase的体系结构 HBASE Shell HBASE的批量导入 HBASE的Java客户端
分布式协调服务	Zookeeper	什么是Zookeeper?及其功能 Zookeeper的体系结构和数据模型 Zookeeper安装及测试 Zookeeper的Java接口 Watcher及内部事件 Zookeeper的工作原理基于ZooKeeper的大数据的HA架构及其实现
基于Spark的大数据分析平台	Scala编程语言	Scala语言基础 Scala语言的面向对象 Scala语言的函数式编程 Scala中的集合 Scala语言的高级特性
	Spark Core核心	什么是Spark？Spark生态圈 Spark的体系结构与安装部署执行Spark Demo程序 Spark运行机制及原理分析 Spark的算子 Spark RDD的高级算子 Spark基础编程案例
	Spark SQL数据分析引擎	Spark SQL基础使用数据源性能优化在IDEA中开发Spark SQL程序
	Spark Streaming流式计算框架	Structured Streaming基础 Structured Streaming的程序模型 Datasets 和 DataFrames API 管理和监控流式查询
基于Hadoop和Spark大数据平台的机器学习	Mahout和Spark MLlib	在机器学习中的使用，常用算法实战（Mahout和spark MLlib） Mahout与Spark MLLib 基于协同过滤算法基于ALS协同过滤算法基于Spark MLLib的逻辑回归算法
下一代大数据处理引擎	Flink	Flink介绍 Flink的数据集 Flink两种执行模型 Flink-流计算模型-有界数据集处理 Flink的DataSet API Flink的DataStream API 广播变量、累加器和计数器状态管理和恢复 Window和Time Flink Table & SQL

报公开课

要内训

12289 次浏览

64 次

其他人还看了课程

基于Flink搭建流计算平台 6141 次浏览

Kafka 原理剖析及实战演练 4601 次浏览

Storm与大数据分析 5766 次浏览

大数据平台架构与应用实战 7359 次浏览

企业级Hadoop大数据处理最佳实践 11354 次浏览

大数据（ ELK Kafka） 6259 次浏览

大数据系统运维 6517 次浏览