主题
|
章节
|
详细内容 |
大数据平台概览
|
大数据处理平台架构基础 |
大数据的产生背景、发展历程
大数据和云计算的关系
大数据应用需求以及潜在价值分析
业界最新的大数据技术发展态势与应用趋势
大数据项目的技术选型与大数据处理系统架构设计
“互联网+”时代下的电子商务、制造业、零售批发业、电信运营商、互联网金融业、网上银行、电子政务、移动互联网、教育信息化等行业应用实践与应用案例剖析
|
业界主流的大数据技术产品与项目解决方案 |
国内外主流的大数据解决方案介绍
当前大数据解决方案与传统数据库方案的剖析比较
Apache大数据平台方案剖析
CDH大数据平台方案剖析
HDP大数据平台方案剖析
开源的大数据生态系统平台剖析 |
Hadoop大数据平台核心技术剖析 |
Hadoop的发展历程以及产业界的实际应用介绍
Hadoop大数据平台架构
基于Hadoop平台的PB级大数据存储管理与分析处理的工作原理与机制
Hadoop的核心组件剖析 |
Hadoop的大数据体系架构
|
Hadoop的起源 |
什么是大数据?
专有云上的混搭平台设计
OLTP系统和OLAP系统
数据仓库的基本概念
Google的基本思想 |
Hadoop的体系结构和原理 |
海量数据的存储HDFS
文件上传的过程
文件下载的过程
原信息的合并过程
海量数据的计算MapReduce
YARN的工作原理
MapReduce作业执行的过程和原理
HBase的基本架构 |
Hadoop集群模式的安装和配置
|
单机模式的安装和配置
伪分布模式的安装和配置
免密码登录的原理
配置Hadoop的集群环境
配置和使用HUE |
Hadoop
HA |
集群的规划
安装Zookeeper集群环境
安装配置hadoop集群
验证HDFS的HA
验证YARN |
Hadoop应用案例分析
|
案例一:互联网应用架构
案例二:日志分析
案例三:Hadoop在淘宝的应用 |
分布式文件系统HDFS
|
访问HDFS
|
使用命令行访问HDFS文件系统
使用Java编程接口访问HDFS文件系统 |
HDFS的高级特性
|
什么是HDFS的联盟
HDFS的回收站
HDFS的配额
HDFS的权限 |
HDFS的底层原理
|
什么是RPC通信?
什么是动态代理? |
HDFS的优化
|
NameNode的优化策略
SecondaryNameNode的优化策略
文件存储的优化
HDFS的瓶颈和解决方案 |
HDFS的NameNode联盟
|
什么是NameNode的联盟
NameNode的体系架构
搭建NameNode的联盟架构 |
分布式计算模型MapReduce和Yan
|
MapReduce基础编程
|
MapReduce的基本概念和原理
数据在MapReduce的流动过程
第一个MapReduce程序和运行MapReduce程序 |
MapReduce高级编程
|
序列化的基本概念
编写MapReduce序列化的程序
MapReduce的排序
MapReduce的分区
什么是Combiner
什么是Shuffle |
Yarn的优化
|
Yarn的内存使用
Yarn的资源调度策略
MapReduce任务的优化 |
数据分析引擎
|
数据分析之Hive
|
什么是Hive和Hive的体系结构
安装和配置Hive
使用HQL
Hive的客户端:CLI客户端和Java编程
接口
Hive的自定义函数
Hive的数据模型
内部表
分区表
桶表
视图
物化视图 |
数据分析之Pig
|
什么是Pig和Pig的体系结构
安装和配置Pig
Pig的数据模型
使用Pig Latin语句进行数据的分析
Pig的自定义函数 |
数据交换引擎
|
Sqoop和Flume
|
使用Sqoop进行数据的交换 什么是Sqoop体系结构
使用Sqoop进行数据的交换
使用Flume进行数据的采集
什么是Flume体系结构
使用Flume进行数据的采集 |
基于HDFS的存储系统
|
HBase数据库
|
HBase简介及其在Hadoop中的位置
HBASE的伪分布的搭建
HBASE的底层存储模型和基本概念
HBASE的读写原理
HBASE的高级特性
HBase的体系结构
HBASE Shell
HBASE的批量导入
HBASE的Java客户端 |
分布式协调服务
|
Zookeeper
|
什么是Zookeeper?及其功能
Zookeeper的体系结构和数据模型
Zookeeper安装及测试
Zookeeper的Java接口
Watcher及内部事件
Zookeeper的工作原理
基于ZooKeeper的大数据的HA架构及其实现 |
基于Spark的大数据分析平台
|
Scala编程语言
|
Scala语言基础
Scala语言的面向对象
Scala语言的函数式编程
Scala中的集合
Scala语言的高级特性 |
Spark
Core核心 |
什么是Spark?Spark生态圈
Spark的体系结构与安装部署
执行Spark Demo程序
Spark运行机制及原理分析
Spark的算子
Spark RDD的高级算子
Spark基础编程案例 |
Spark
SQL数据分析引擎 |
Spark SQL基础
使用数据源
性能优化
在IDEA中开发Spark SQL程序 |
Spark
Streaming流式计算框架 |
Structured Streaming基础
Structured Streaming的程序模型
Datasets 和 DataFrames API
管理和监控流式查询 |
基于Hadoop和Spark大数据平台的机器学习
|
Mahout和Spark
MLlib |
在机器学习中的使用,常用算法实战(Mahout和spark MLlib)
Mahout与Spark MLLib
基于协同过滤算法
基于ALS协同过滤算法
基于Spark MLLib的逻辑回归算法 |
下一代大数据处理引擎
|
Flink
|
Flink介绍
Flink的数据集
Flink两种执行模型
Flink-流计算模型-有界数据集处理
Flink的DataSet API
Flink的DataStream API
广播变量、累加器和计数器
状态管理和恢复
Window和Time
Flink Table & SQL |