要资料 文章 文库 视频 Code iProcess 课程 认证 服务 工具 讲座吧   专家招募  
会员   
 
 
 
 
全部课程 | 技术学院 | 管理学院 | 嵌入式学院 | 在线学院  
成功案例   品质保证  电话 English
追随技术信仰

随时听讲座
每天看新闻
 
   
成功案例
某知名银 大数据分析专题-R
IGT 数据分析与挖掘
某风电企 R语言数据分析
某车联网 数据分析与挖掘
新电信息 PL/SQL应用性
某车联网 企业级hadoop
某知名基 Mysql性能优化

相关课程  
并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
HBase原理与高级应用
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理
 
 
大数据(Hadoop、Spark、NOSQL)案例分析与实践     1360 次浏览    124 次 
 
主讲嘉宾:Gavin.Liu,云平台系统架构师,先后服务于北京大学软件研究所、高德软件、阿里巴巴等
时间地点:北京、上海、深圳 根据报名开班
课程费用:5800元/人 (学生3折),详见 公开课学习手册
企业内训:可以根据企业需求,定制内训,详见 内训学习手册
 
课程特点:

当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。MapReduce作为一个经典的分布式计算框架,已经广为人知,且得到了广泛的应用,但MapReduce自身存在很多问题,包括迭代式计算和DAG计算等类型的数据挖掘与机器学习算法性能低下,不能很好地利用内存资源,编程复杂度较高等。为了克服MapReduce的众多问题,新型计算框架出现了。

培训目标:

本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程,涉及Spark、Hadoo系统基础知识,概念及架构, Spark、Hadoo实战技巧,Spark、Hadoo经典案例等。
通过本课程实践,帮助学员对Spark、Hadoo生态系统有一个清晰明了的认识;理解Spark、Hadoo系统适用的场景;掌握Spark、Hadoo等初中级应用开发技能;搭建稳定可靠的Spar、Hadoo k集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,华为等。

 
培训对象:各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。
学员基础: 了解Linux系统及相关语言环境
 
授课方式: 小班授课(12人之内)+ 案例讲解 + 小组讨论,60%案例讲解,40%实践演练
培训内容: 2天
Hadoop简介和生态系统介绍
  • 传统大规模数据分析存在的问题
  • Hadoop概述
  • ?
  • Hadoop与分布式文件系统
  • Hadoop生态系统
  • Hadoop的行业应用案例分析
  • Hadoop在云计算和大数据的位置和关系
  • Hadoop版本介绍
  • Hadoop与Google FS的关系
  • Hadoop在国内的使用情况和未来
Hadoop安装和主要配置文件介绍
  • Hadoop安装所需软件介绍
  • Hadoop单机安装
  • Hadoop伪分布式安装
  • Hadoop完全分布式安装
  • Hadoop三个节点安装的配置介绍
  • Hahoop多节点ssh配置
  • Hadoop格式化详解
  • Hadoop核心配置文件介绍
  • 核心配置文件core-site.xml
  • HDFS配置文件hdfs-site.xml
  • Mapreduce配置文件mapred-site.xml
  • master文件配置详解
  • slave文件配置详解
  • Hadoop启动和停止方法一
    • start-all.sh详解
    • stop-all.sh详解
  • Hadoop的启动和停止方法二
    • hadoop-deamon.sh详解
  • Hadoop安装的常见错误介绍和解决方案
  • 使用自带的wordcount和pi测试集群安装是否成功
  • 使用Streaming来测试集群安装是否成功
Hadoop组件介绍
  • Hadoop NameNode 介绍
  • Hadoop SecondaryNameNode介绍
  • Hadoop DataNode 介绍
  • Hadoop JobTracker 介绍
  • Hadoop TaskTracker 介绍
Hadoop的HDFS模块
  • HDFS架构介绍
  • HDFS原理介绍
  • NameNode功能详解
  • DataNode功能详解
  • SecondaryNameNode功能详解
  • HSFD的fsimage和editslog详解
  • HDFS的block详解
  • HDFS的block的备份策略
  • Hadoop的机架感知配置
  • HDFS的shell命令介绍
  • HDFS的thrift server服务介绍
  • HDFS的API接口介绍
  • HDFS的权限详解
  • Hadoop的客服端接入案例
MapReducer入门
  • Mapreduce原理
  • MapReduce流程
  • 剖析一个MapReduce程序
  • Mapper和Reducer抽象类详解
  • Mapreduce的最小驱动类
  • MapReduce自带的类型
  • 自定义Writables和WritableComparables
  • Mapreduce的输入InputFormats
  • MapReduce的输出OutputFormats
  • Combiner详解
  • Partitioner详解
  • DistributeFileSystem详解
  • Hadoop Tools工具介绍
  • Counter计数器详解
  • 自定义Counter计数器
  • 基于Hadoop二次开发实战
  • MapReduce的优化
  • Map和Reduce的个数设置
  • Hadoop小文件优化
  • 任务调度
  • 默认的任务调度
  • 公平任务调度
  • 能力任务调度
  • 使用 Hadoop MapReduce Streaming 编程
  • MapReduce的单元测试
Hive
  • Hive和Pig基础
  • Hive、Impala和presto的比较
  • Hive的作用和原理说明
  • >
  • Hadoop仓库和传统数据仓库的协作关系
  • Hadoop/Hive仓库数据数据流
  • Hive部署和安装
  • HiveCli的基本用法
  • Hive的server启动
  • HQL基本语法
  • Hive的加载数据本地加载和HDFS加载
  • Hive的partition详解
  • Hive的存储方式详解
  • RCFILE、TEXTFILE和SEQUEUEFILE
  • Hive的UDF和UDAF
  • Hive的transform详解
  • Hive的JDBC连接
Sqoop介绍
  • Sqoop是什么
  • Sqoop安装
  • Sqoop把mysql数据导入HDFS
  • Sqoop把HDFS数据导入Mysql
  • Sqoop吧Mysql数据导入Hive
  • Sqoop吧Mysql数据导入Hive分区
Hadoop集群配置和维护
  • Hadoop集群的部署要点
  • NameNode和SecondaryNameNode和JobTracker机器的配置要求
  • dataNode与tasktracker机器的配置要求
  • Hadoop集群管理的工具介绍
  • Ganglia和nigos监控Hadoop集群介绍
  • Ambri介绍
  • 添加和删除节点演示
  • Namenode的单点解决方案
  • NameNode的NFS备份介绍
  • 集群所有dataNode挂掉的故障介绍
  • 集群NameNode的fsimage丢掉恢复方法
  • Hadoop集群维护的注意点
Hbase使用
  • Hbase原理
  • Hmaster详解
  • RegionServer详解
  • Zookeeper介绍
  • Hbase安装
  • Hbase逻辑视图介绍
  • Hbase物理视图介绍
  • Hbase的二级索引介绍
  • Hbase的DDL和DML
  • Hbase表的设计案例
  • Hbase的import功能介绍
  • MapReduce操作Hbase
  • Hbase的thriftServer介绍
  • Hbase的API介绍
  • Hbase使用场景介绍
  • Hbase案例分析
大数据在国内的运用
  • 大数据在国内的使用介绍
  • 离线计算框架介绍
  • 流式计算框架介绍
  • 内存计算框架介绍
  • 内存流式计算介绍
  • 大数据实时请求框架介绍
  • 大数据在移动的案例介绍
  • 大数据在银行的案例介绍
  • 大数据在阿里的案例介绍
Spark生态介绍
  • Spark产生背景
  • Spark(内存计算框架)
  • SparkSteaming(流式计算框架)
  • SparkSQL(ad-hoc)
  • Mllib(MachineLearning)
  • GraphX(bagel将被代)
spark安装部署
  • Spark安装简介
  • Spark的源码编译
  • SparkStandalone安装
  • SparkStandaloneHA安装
  • Spark应用程序部署工具spark-submit
Spark运行架构和解析
  • Spark的运行架构
  • 基本术语
  • 运行架构
  • SparkonStandalone运行过程
  • SparkonYARN运行过程
  • Spark运行实例解析
  • SparkonStandalone实例解析
  • SparkonYARN实例解析
SparkSQL原理和实践
  • SparkSQL原理
  • SparkSQL的Catalyst优化器
  • SparkSQL内核
  • SparkSQL和Hive
  • SparkSQL的实例和编程
  • SparkSQL的实例操作demo
  • SparkSQL的编程
1360 次浏览   124 次
其他人还看了课程
基于Spark的大数据分析  645 次浏览
Scala编程语言  114 次浏览
基于Hadoop大数据平台数据治理  113 次浏览
Hadoop与Spark大数据架构专题  1652 次浏览
Spark实践培训  650 次浏览
Storm与大数据分析  61 次浏览
定制内训


咨询服务:大数据技术平台构建与应用
咨询目标 帮助客户设计、规划大数据架构
帮助客户建立大数据技术平台,
帮助客户建立大数据分析模型
咨询范围 大数据架构:数据结构模型,存储空间,数据分析模型
大数据技术平台:分布式存储与计算平台,采集工具,分析工具
大数据分析应用案例:分析模型,结果报告
咨询方式 调查分析客户当前的数据资源和使用情况。
为客户设计大数据架构
搭建大数据技术平台
建立大数据分析应用示例。
详情咨询:010-62670969, zhgx@uml.net.cn

最新活动计划
[北京]用户体验与界面设计 6-15
[北京]Devops体系、工具平台 6-16
[北京]持续集成测试最佳实践 6-24
[北京]人工智能机器和深度学习 5-19
[北京]需求分析与管理 5-15
[北京]嵌入式软件测试 5-25
[北京]微服务架构设计与实践 5-27
[北京]UML和EA进行系统分析设计 6-1
[上海]软件架构设计案例与实践 5-11
[上海]产品设计与用户体验 5-15
[上海]自动化测试方法、案例实践 5-26
[深圳] 软件设计模式最佳实践 5-26
[深圳]Oracle数据库SQL优化 6-9
 
 
 

 
每天2个文档/视频
扫描微信二维码订阅
订阅技术月刊
获得每月300个技术资源
 
希望我们的资料可以帮助你学习,也欢迎投稿&提建议给我
频道编辑:sky
邮       件:sky@uml.net.cn

关于我们 | 联系我们 | 京ICP备10020922号 京公海网安备110108001071号