Hadoop原理、应用与优化培训-火龙果软件-UML软件工程组织


本课程培训后，进行能力评测，成绩合格者，获得《能力认证：数据架构师》证书
	《数据架构师》认证方式 1.知识：权威知识考试； 2.技能：真实案例实践考评； 3.经验：工作经验审核； 4.素养：未来发展潜力的评估。

本课程结合大规模大数据案例，讲解完整的hadoop的工作周期中的相关的工具、原理和应用方法。涉及：采集、存储、访问、挖掘和分析、优化。

培训目标：

大数据存储概览
大数数据平台Hadoop概览
Hadoop集群规划
Hadoop简介和生态系统介绍
Hadoop安装和主要配置文件介绍
Hadoop组件介绍
Hadoop的HDFS模块
MapReducer入门和高级开发实战
Hive的使用和实战
Hbase使用
Hadoop集群配置介绍和维护
数据抽取工具Sqoop使用

培训对象：程序员、架构师、运维工程师、数据库开发人员、后台开发人员。

学员基础：具有大数据系统知识，最好有开发或者运维经验。

授课方式： 定制课程 + 案例讲解 + 小组讨论，60%案例讲解，40%实践演练

培训内容：2天

大数据存储概览	大数据的产生、引用、存储与应用大数据存储的特点大数据库的基本元素海量数据库的开发特性数据库的数据分析与挖掘应用数据仓库与数据集市
大数数据平台Hadoop概览	传统大规模系统存在的问题 Hadoop概述文件存储-HDFS HDFS-工作原理数据计算MapReduce MapReduce工作原理 SQL分析-Hive 海量实时读写-HBase 分布式协调系统—Zookeeper 数据抽取工具Sqoop使用 Hadoop分布式文件系统 MapReduce工作原理 Hadoop集群剖析 Hadoop生态系统对一种新的解决方案的需求 Hadoop的行业应用案例分析 Hadoop在云计算和大数据的位置和关系
Hadoop集群规划	Hadoop 集群内存要求 Namenode的机器配置 Datanode的机器配置 SNN的机器配置 Hadoop集群磁盘分区集群和网络拓扑要求集群软件的端口配置
Hadoop简介和生态系统介绍	传统大规模数据分析存在的问题 Hadoop概述 Hadoop与分布式文件系统 Hadoop生态系统 Hadoop的行业应用案例分析 Hadoop在云计算和大数据的位置和关系 Hadoop版本介绍 Hadoop与Google FS的关系 Hadoop在国内的使用情况和未来
Hadoop安装和主要配置文件介绍	Hadoop安装所需软件介绍 Hadoop单机安装 Hadoop伪分布式安装 Hadoop完全分布式安装 Hadoop三个节点安装的配置介绍 Hahoop多节点ssh配置 Hadoop格式化详解 Hadoop核心配置文件介绍核心配置文件core-site.xml HDFS配置文件hdfs-site.xml Mapreduce配置文件mapred-site.xml master文件配置详解 slave文件配置详解 Hadoop启动和停止方法一 —start-all.sh详解 —stop-all.sh详解 Hadoop的启动和停止方法二 —hadoop-deamon.sh详解 Hadoop安装的常见错误介绍和解决方案使用自带的wordcount和pi测试集群安装是否成功使用Streaming来测试集群安装是否成功
Hadoop组件介绍	Hadoop NameNode 介绍 Hadoop SecondaryNameNode 介绍 Hadoop DataNode 介绍 Hadoop JobTracker 介绍 Hadoop TaskTracker 介绍
Hadoop的HDFS模块	HDFS架构介绍 HDFS原理介绍 NameNode功能详解 DataNode功能详解 SecondaryNameNode功能详解 HSFD的fsimage和editslog详解 HDFS的block详解 HDFS的block的备份策略 Hadoop的机架感知配置 HDFS的shell命令介绍 HDFS的thrift server服务介绍 HDFS的API接口介绍 HDFS的权限详解 Hadoop的客服端接入案例
MapReducer入门和高级开发实战	Mapreduce原理 MapReduce流程剖析一个MapReduce程序 Mapper和Reducer抽象类详解 Mapreduce的最小驱动类 MapReduce自带的类型自定义Writables和WritableComparables Mapreduce的输入InputFormats MapReduce的输出OutputFormats 自定义InputFormat 自定义InputSPlits 自定义RecorderReader Combiner详解 Partitioner详解 DistributeFileSystem详解 Hadoop Tools工具介绍 Counter计数器详解自定义Counter计数器基于Hadoop二次开发实战 MapReduce的优化 Map和Reduce的个数设置 Hadoop小文件优化任务调度默认的任务调度公平任务调度能力任务调度使用 Hadoop MapReduce Streaming 编程 MapReduce的单元测试
Hive的使用和实战	Hive和Pig基础 Hive、Impala和presto的比较 Hive的作用和原理说明 Hadoop仓库和传统数据仓库的协作关系 Hadoop/Hive仓库数据数据流 Hive 部署和安装 Hive Cli 的基本用法 Hive的server启动 HQL基本语法 Hive的加载数据本地加载和HDFS加载 Hive的partition详解 Hive的存储方式详解 RCFILE、TEXTFILE和SEQUEUEFILE Hive的UDF和UDAF Hive的transform详解 Hive的JDBC连接
Hbase使用	Hbase原理 Hmaster详解 RegionServer详解 Zookeeper介绍 Hbase安装 Hbase逻辑视图介绍 Hbase物理视图介绍 Hbase的二级索引介绍 Hbase 的DDL和DML Hbase表的设计案例 Hbase的import功能介绍 MapReduce操作Hbase Hbase的 thrift Server介绍 Hbase 的API介绍 Hbase案例分析
Hadoop集群配置介绍和维护	Hadoop集群的部署要点 NameNode和SecondaryNameNode和JobTracker机器的配置要求 dataNode与tasktracker机器的配置要求 Hadoop集群管理的工具介绍 Ganglia和nigos监控Hadoop集群介绍 Ambri介绍添加和删除节点演示 Namenode的单点解决方案 NameNode的NFS备份介绍集群所有dataNode挂掉的故障介绍集群NameNode的fsimage丢掉恢复方法 Hadoop集群维护的注意点
数据抽取工具Sqoop使用	Sqoop是什么 Sqoop安装 Sqoop把mysql数据导入HDFS Sqoop把HDFS数据导入Mysql Sqoop吧Mysql数据导入Hive Sqoop吧Mysql数据导入Hive分区执行脚本的解析数据导入过程中的典型问题和解决办法

报公开课

要内训

5632 次浏览

37 次

其他人还看了课程

互联网数据库架构设计 2832 次浏览

数据仓库架构设计与优化 1595 次浏览

数据库查询优化与性能调优 2185 次浏览

编写高效存储过程 2080 次浏览

使用PowerDesigner进行面向对象建模 2525 次浏览

Oracle数据库SQL优化 4779 次浏览

	咨询服务：数据库设计与性能优化

咨询目标	对客户的数据库进行性能评价，设计优化，管理优化
咨询范围	数据库性能评价，数据库结构优化，数据访问SQL优化。
咨询方式	现有数据库调查，问题诊断，性能评价。对数据库进行逻辑结构优化，对数据库进行访问SQL优化。建立数据库运行监控平台。运行监控与优化方法指导。
成功案例	建设银行，中国农业银行，中国工商银行，中航信

详情咨询：010-62670969， zhgx@uml.net.cn

课程计划

MBSE（基于模型的系统工程）4-18[北京]

自然语言处理（NLP） 4-25[北京]

基于 UML 和EA进行分析设计 4-29[北京]

以用户为中心的软件界面设计 5-16[北京]

DoDAF规范、模型与实例 5-23[北京]

信息架构建模（基于UML+EA）5-29[北京]