大数据架构概述 |
大数据层级架构及各层软件设计要求:
大数据存储
大数据计算框架
大数据应用等
Hadoop生态系统概述以及版本演化
Hadoop生态系统及其版本演化历史
hadoop版本选择建议
Spark生态系统概述
Spark生态系统及其特点
Spark与Hadoop对比 |
数据收集系统Flume与Sqoop |
使用flume和sqoop两个系统将如下数据的数据导入Hadoop中
外部流式数据(比如网站日志,用户行为数据等)
关系型数据库(比如MySQL、Oracle等)中 |
大数据存储系统HDFS与HBase |
HDFS
2.0 原理、特性与基本架构
HDFS 2.0原理与架构,与HDFS 1.0进行对比
HDFS 2.0新特性,包括快:照、缓存、异构存储架构等
HBase应用场景、原理和架构 几个HBase典型应用案例:
互联网应用案例
银行应用案例 |
集群资源管理与调度系统 |
YARN应用场景
YARN基本架构
YARN资源调度 |
Zookeeper部署及典型应用 |
Zookeeper是什么
Zookeeper基本原理
Zookeeper应用 |
大数据计算框架、平台与开源实现 |
批处理计算框架
MapReduce 2.0基本原理与架构,编程实践(涉及多语言编程)
计算框架MapReduce基本原理与架构
手把手介绍如何用java、C++、php等语言编写MapReduce程序
数据分析系统Hive与Pig应用与比较
如何使用hive和pig分析hadoop中的海量数据
Spark计算框架
Spark背景,使用以及应用案例
交互式计算框架
Impala和presto应用场景
基本架构
典型应用案例
流式/实时计算框架
storm以及Spark Streaming基本架构与特点
典型应用案例 |
数据挖掘与机器学习库 |
Mahout与MLlib两个主流的分布式数据挖掘与机器学习库的实现以及应用案例。 |