|
|
|
|
|
企业级Hadoop大数据处理最佳实践 |
|
|
时间地点:在线课堂 深圳 上海 北京
根据报名开班 |
课程费用:5800元/人 |
企业内训:可以根据企业需求,定制内训,详见
内训学习手册 |
|
大数据是什么?是一种运营模式,是一种能力,还是一种技术,或是一种数据集合的统称?今天我们所说的“大数据”和过去传统意义上的“数据”的区别又在哪里?大数据的来源又有哪些?在大数据火爆的今天,这些都是传统企业亟待解决的问题。
Hadoop技术已经无处不在。不管是好是坏,Hadoop已经成为大数据的代名词。短短几年间,Hadoop从一种边缘技术成为事实上的标准。看来,不仅现在Hadoop是企业大数据的标准,而且在未来,它的地位似乎一时难以动摇。
基于 Hadoop 的解决方案能够帮助企业应对多个大数据挑战,包括:
1. 业界有哪些真是落地的Hadoop应用
2. Hadoop在企业内部到底适用于那些应用场景
3. 如何建设hadoop 集群环境
4. 如何设计hadoop 应用方案
5. 如何使Hadoop与传统技术结合,如Greenplum
新年伊始,另一项技术Spark横空出世,Spark是UC Berkeley AMP lab所开源的类Hadoop
MapReduce的通用的并行,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map
reduce的算法。
|
课程特色: |
- 以课堂讲解、演示、案例分析为主,辅以互动研讨、现场答疑、学以致用。
- 以2.0 Hadoop 为核心内容,重点为银行业定制的Hadoop课程
- 传统技术与Hadoop技术相结
|
培训目标: |
(1)了解大数据业内最新发展趋势,深入掌握Hadoop的原理,Hadoop生态系统
(2)深入学习yarn 框架下的MapReduce,掌握MapReduce研发
(3)掌握HDFS 开发
(4)掌握Greenplum数据库原理、设计
(5)了解Hadoop集群规划,应用案例解析
(6)列式数据库HBase的基本原理,应用场景,掌握基本的编程技巧
(7)学习掌握 Hive工具 , 分布式协调系统Zookeeper的基本原理,应用场景,掌握基本的编程技巧
|
培训对象 |
对大数据、分布式存储、分析关注的专业人士或者学习者;云计算、大数据从业者;大型网站电商网站等运维人员;牵涉到大数据处理的数据中心运行、规划、设计负责人 |
学员基础:了解Java、PHP、C等任意一门编程语言;了解Hadoop生态体系 |
授课方式 |
为了全程保证效果,课前、课中、课后都需要您的配合:
课前:发给学员预习资料,进行预习。
课中:在线直播授课,每次2小时,每周两节课,3周学完,有充分的复习和练习时间。
课后:提供学习资料,答疑。 |
培训内容:
|
第一个专题:互联网大数据应用案例深度解
|
众说纷纭大数据
大数据当前的技术发展及热点分析
● 剖析阿里等成功案例
● 分析传统行业大数据之困
Hadoop在互联网公司的应用案例解析
● 互联网企业遇到大数据的问题
● 案例分享:12306 大数据实践
● 案例分享:淘宝飞天平台实践
● 案例分享:微信红包大数据分析
● 案例分享:春晚大数据案例分析
大数据在互联网公司运营的起到的作用
● 互联网公司一个产品的诞生
产品设计阶段大数据支持
用户交互体验设计的大数据支持
战略决策及营销阶段的大数据支持
大数据时代的互联网思维
● 互联网思维:先免费,后收费,跨界,颠覆
● 敏捷项目管理:敏捷开发,敏捷项目管理,以用户为中心
银行业大数据
● 银行业存在大数据都有哪些
● 银行到底需要大数据来做什么
案例解析:某银行智能在线客服系统
案例解析:某银行大数据处理平台
案例解析:某银行客户分析系统
● 小型机、X86、大型机 ,hadoop到底能替代什么
● 我们不能与互联网公司比什么
大数据企业级平台选型方案
● 开源方案:Hadoop,Spark
● 企业级方案:Oracle Exdata,IBM Biginsight
● 国内厂商:华为,浪潮,曙光相关的方案介绍 |
第二个专题:Hadoop生态系统介绍和演进 |
Hadoop/Hive
对比 Oracle 在构建数据仓库上的优劣势
Hadoop 如何和传统IT系统配合完成原来不可能的任务
Hadoop版本讲解及Hadoop新旧版本使用对比
Hadoop工作原理及架构
Hadoop HDFS 和 MapReduce
Hadoop数据库之HBase
HBase架构及如何应用与编程开发相结合
Hadoop数据仓库之Hive
Hive架构及如何应用与编程开发相结合
Hadoop数据处理脚本Pig
Pig架构及如何应用与编程开发相结合
Hadoop数据接口Sqoop和Flume
Sqoop和Flume架构及如何应用与编程开发相结合
Hadoop工作流引擎 Oozie
Oozie架构及如何应用与编程开发相结合
Hadoop生态系统各模块应用与编程开发相结合
|
案例及实验 |
某银行如何使用Hadoop统一数据平台架构解析
某电信企业hadoop平台案例解析 |
第三个专题:Hadoop
2.0 |
3.1
持续性应力与浪涌应力的区别
3.2 电压应力与电流应力的故障现象区别
3.3 MSD与机械应力损伤的特征、成因、解决措施
3.4 基于端口特性阻抗曲线的失效测试分析方法
3.5 常用器件失效机理、失效特征、应对措施 |
第四个专题:动手搭建Hadoop2.6.0集群及运维
|
Hadoop安装的前提条件
Java环境
Linux环境
SSH环境
防火墙环境
Hadoop集群部署
单机与伪分布式部署实现
集群环境部署实现
Hadoop集群的监控
50070端口查看
Ganglia 使用分析
Hadoop集群的运维
|
第五个专题:HDFS原理及高级程序实战演练(深入理解HDFS)
|
HDFS架构及原理
HDFS NameNode、DataNode解析
HDFS 副本机制块机制解析
HDFS实战-命令行等使用
HDFS命令行工具
启动、停止HDFS服务
如何查看HDFS日志
如何查看HDFS Web控制台
HDFS参数配置 |
案例及实验
|
HDFS实战-Java API使用
Eclipse 开发环境介绍
HDFS 开发基本步骤
HDFS Java API详解
Configuration
Path
FileSystem
Stream、IOUtils |
第六个专题:HDFS高级(深入理解与使用HDFS2.0特色)
)
|
HDFS HA方案及环境搭建
HDFS Snapshot机制分析及使用
HDFS Cache机制分析及使用
用 |
第七个专题:Hadoop
Yarn |
Yarn 与MapReduce的不同
Yarn 原理与架构
Apache YARN基本框架
Apache YARN工作流程
Apache YARN设计细节
Yarn 核心技术模块原理解析
MapReduce与YARN结合
如何与Yarn来结合
Yarn 配置及搭建 |
第八个专题:Hadoop
MapReduce深入解析(2小时
|
使用 Hadoop MapReduce Streaming 编程
MapReduce流程
剖析一个MapReduce程序
基本MapReduceAPI 概念
驱动代码 Mapper、Reducer
Hadoop流
API 使用Eclipse进行快速开发
新MapReduce API
MapReduce的优化
MapReduce的任务调度
MapReduce编程实战
满足解决实际数据分析问题的高级Hadoop API |
案例及实验
|
Hadoop Streaming 和 Java MapReduce Api 差异。
MapReduce 实现数据库功能
利用Combiners来减少中间数据
编写Partitioner来优化负载平衡
直接访问Hadoop分布式文件系统(HDFS)
Hadoop的join操作
辅助排序在Reducer方的合并
定制Writables和WritableComparables
使用SequenceFiles和Avro文件保存二进制数据
创建InputFormats OutputFormats
Hadoop的二次排序
Hadoop的海量日志分析 |
|
|
|
|
|
|
|
|
|
2451 次浏览 52 次
|
其他人还看了课程 |
|
|
|
|
|
咨询目标
|
帮助客户设计、规划大数据架构
帮助客户建立大数据技术平台,
帮助客户建立大数据分析模型 |
咨询范围 |
大数据架构:数据结构模型,存储空间,数据分析模型
大数据技术平台:分布式存储与计算平台,采集工具,分析工具
大数据分析应用案例:分析模型,结果报告 |
咨询方式 |
调查分析客户当前的数据资源和使用情况。
为客户设计大数据架构
搭建大数据技术平台
建立大数据分析应用示例。 |
详情咨询:010-62670969, zhgx@uml.net.cn
|
|
|
|
|
|
|