要资料 文章 文库 视频 Code iProcess 课程 认证 服务 工具 讲座吧   专家招募  
会员   
 
 
 
 
全部课程 | 技术学院 | 管理学院 | 嵌入式学院 | 在线学院  
成功案例   品质保证  电话 English
追随技术信仰

随时听讲座
每天看新闻
 
   
成功案例
中国电信 大数据时代与现代企
某知名银 大数据分析专题-R
IGT 数据分析与挖掘
某风电企 R语言数据分析
某车联网 数据分析与挖掘
新电信息 PL/SQL应用性
某车联网 企业级hadoop

相关课程  
并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
HBase原理与高级应用
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理
 

Spark大数据处理案例分析与实践   
董老师
资深Hadoop技术实践者和研究者,拥有超过5年的Hadoop平台研发经验
报名课程   2752 次浏览    131 次 
时间地点: 深圳7月29-30日 ; 北京 上海 根据报名开班
课程费用:5800/人

企业内训:可以根据企业需求,定制内训,详见 内训学习手册


本课程将分别从理论基础知识,系统搭建以及应用案例三方面对spark进行介绍。
采用循序渐进的课程讲授方法,首先讲解Spark系统基础知识,概念及架构,之后讲解Spark实战技巧,最后详尽地介绍Spark经典案例,使培训者从概念到实战,均会有收获和提高。

课程特点
Spark已经被不少互联网公司采用,大部分数据挖掘算法和迭代式算法在逐步MapReduce平台迁移到Spark平台中,包括阿里巴巴(广告系统),腾讯(广点通精准推荐),百度,优酷土豆,360,支付宝等互联网公司已经在线上产品中使用spark,且取得了令人满意的效果,另外,部分省份的运营商也正在尝试使用spark解决数据挖掘和分析问题,部分银行,如工商银行,也正在尝试spark平台。
培训目标

本课程将为大家全面而又深入的介绍Spark平台的构建流程,涉及Spark系统基础知识,概念及架构, Spark实战技巧,Spark经典案例等。
通过本课程实践,帮助学员对Spark生态系统有一个清晰明了的认识;理解Spark系统适用的场景;掌握Spark等初中级应用开发技能;搭建稳定可靠的Spark集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,腾讯,百度等互联网行业,中国移动和联通等运营商。

培训对象:各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员
学员基础:了解Java语言,了解Linux系统
授课方式: 定制课程 + 案例讲解 + 小组讨论,60%案例讲解,40%实践演练

培训内容:2天

Spark大数据架构概述及案例简介
1.1 介绍Spark大数据层级架构及各层软件设计要求,包括数据收集,大数据存储,大数据计算框架, 大数据应用等
1.2 Hadoop与Spark区别与关系
1.3 Spark生态系统概述以及版本演化,并给出spark版本选择建议
1.4 Spark典型案例简介(简要介绍案例,具体在后面各节会详细介绍)
 Spark商品推荐系统、用户标签系统
Spark产生动机与基本概念 2.1 Spark产生背景,与MapReduce对比,其优缺点是什么
2.2 Spark核心概念
 (1)RDD
 (2)基本操作:transformation与 action
2.2 Spark程序架构
 (1)Driver/executor
 (2)容错机制
Spark安装部署 3.1 Spark运行模式简介、standlone模式、Spark on yarn模式
3.2 搭建一个spar
Spark程序设计实例

4.1 Scala语言基础,常用语法以及库函数
4.2 Spark程序设计方法
 (1)DSpark程序基本构成,SparkContext,RDD,transformation/action
 (2)Spark API介绍
  (a)如何创建RDD(scala集合,HDFS文件,HBase文件等)
  (b)如何基于RDD进行数据处理,介绍常见的分布式算子
  (c)如何保存处理结果(返回到driver端,写入hdfs等)
  (d)广播变量与累加器
4.3 Spark程序设计实例
 (1)分布式Pi估算程序
 (2)K-means分类算法实现
 (3)逻辑回归算法实现

Spark内部原理 5.1 Spark程序运行流程概述
 介绍Spark从提交,到调度,到最后执行完成整个过程
5.2 Spark内部执行流程
 介绍Spark程序内部的逻辑查询计划,物理查询计划,调度等几个环节
5.3 Spark shuffle实现
 介绍Spark shuffle发展史及实现逻辑
5.4 Spark算子的内部机制
 以reduce By Key和group By Key为例介绍spark算子的内部实现原理
Spark与外部系统整合 6.1 Spark与Kafka和flume结合
 介绍如何使用kafka和flume将数据导入hadoop中,以便使用spark处理
6.2 Spark与Storm结合
 介绍如何使用spark实时处理数据
6.3 Spark与HBase和HDFS结合
 介绍Spark如何与HBase和HDFS实现数据的读写交互
6.4 Spark与关系型数据库和hive结合
 介绍如何使用spark与关系型数据库和hive结合
Spark调优方法 Spark调优思想、方法
Spark案例分析

基于Spark的商品推荐系统,包括:项目背景、项目架构、项目实施

Spark Streaming应用及案例分析
    8.1 Spark Streaming产生动机
    8.2 Spark Streaming程序设计
     (1)创建DStream
     (2)基于DStream进行流式处理
    8.3 Spark Streaming容错与性能优化
     (1)Spark Streaming容错机制
     (2)如何对spark Streaming进行优化
    8.4 Spark Streaming案例分析
      基于Spark Streaming的用户标签系统,内容包括项目背景,项目架构以及实施方法
Spark SQL
    9.1 Spark SQL定位
    9.2 如何使用SparkSQL处理数据
     (1)使用SparkSQL处理HDFS上数据
     (2)使用SparkSQL处理Hive中的数据
    9.3 Spark SQL与Spark及Spark Streaming结合
MLlib 10 介绍Spark的数据挖掘库MLlib,重点介绍其内部的几个分类算法,聚类算法和推荐算法,包括逻辑回归,K-Means,协同过滤等
GraphX 11. 介绍Spark内部的图计算框架GraphX,重点介绍它的基本原理及使用方法
2752 次浏览   131 次
其他人还看了课程
数据统计分析方法与工具、实践  498 次浏览
大数据分析-SparkR  695 次浏览
大数据落地技术系列课程  925 次浏览
大数据分析专题-R语言培训  1347 次浏览
CDH Cloudera Manager管理实战与案例解析  1077 次浏览
大数据(Hadoop、Spark、NoSQL等)的技术与实践  871 次浏览
定制内训


咨询服务:大数据技术平台构建与应用
咨询目标 帮助客户设计、规划大数据架构
帮助客户建立大数据技术平台,
帮助客户建立大数据分析模型
咨询范围 大数据架构:数据结构模型,存储空间,数据分析模型
大数据技术平台:分布式存储与计算平台,采集工具,分析工具
大数据分析应用案例:分析模型,结果报告
咨询方式 调查分析客户当前的数据资源和使用情况。
为客户设计大数据架构
搭建大数据技术平台
建立大数据分析应用示例。
详情咨询:010-62670969, zhgx@uml.net.cn

最新活动计划
[北京]微服务架构设计与实践 7-7
[北京]软件设计模式最佳实践7-18
[北京]基于互联网的产品创新 7-19
[北京]软件架构设计方法案例7-19
[北京]嵌入式软件测试7-24
[北京]Python全栈工程师实战7-26
[北京]敏捷测试-简单而可行 7-28
[北京]大数据架构设计实战演练 7-29
[上海]DevOps体系实践工具与平台7-29
[上海]微服务架构设计与实践 8-5
[深圳]嵌入式软件架构高级实践7-23
[深圳]UML+嵌入式系统分析设计8-24
 
 
 

 
每天2个文档/视频
扫描微信二维码订阅
订阅技术月刊
获得每月300个技术资源
 
希望我们的资料可以帮助你学习,也欢迎投稿&提建议给我
频道编辑:sky
邮       件:sky@uml.net.cn

关于我们 | 联系我们 | 京ICP备10020922号 京公海网安备110108001071号