要资料 文章 文库 视频 Code iProcess 课程 认证 服务 工具 讲座吧   专家招募  
会员   
 
 
 
 
全部课程 | 技术学院 | 管理学院 | 嵌入式学院 | 在线学院  
成功案例   品质保证  电话 English
追随技术信仰

随时听讲座
每天看新闻
 
   
成功案例
某知名银 大数据分析专题-R
IGT 数据分析与挖掘
某风电企 R语言数据分析
某车联网 数据分析与挖掘
新电信息 PL/SQL应用性
某车联网 企业级hadoop
某知名基 Mysql性能优化

相关课程  
并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
HBase原理与高级应用
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理
 

Spark大数据处理技术     780 次浏览    93 次 
 
 
专家讲师:夏老师,阿里巴巴数据平台部高级技术专家
地点时间:北京、上海、深圳根据报名开班
课程费用:5700元/人 详见 公开课学习手册
企业内训:可以根据企业需求,定制内训,详见 内训学习手册
 
透彻讲解Spark原理和架构,以及部署模式、调度框架、存储管理及应用监控等重要模块,同时带领您对Spark生态圈深度检阅:SQL处理Shark和Spark SQL、流式处理Spark Streaming、图计算Graphx及内存文件系统Tachyon。使学员能够基于相关技术构建大数据应用。


 
培训目标:
  • Spark系统概述
  • Spark RDD及编程接口
  • Spark运行模式及原理
  • Spark调度管理原理
  • Spark的存储管理
  • Spark监控管理
  • Shark架构与安装配置
  • SQL程序扩展
  • Spark Streaming流数据处理框架
  • GraphX计算框架
  • Tachyon存储系统

培训对象:大数据应用开发工程师
学员基础:具有一定大数据项目经验,最好有hadoop经验
授课方式: 定制课程 + 案例讲解 + 小组讨论,60%案例讲解,40%实践演练,详见 公开课学习手册
培训内容:3天
Spark系统概述 为什么需要
和Hadoop有什么不同
Spark大数据处理框架
Spark基本功能
Spark基本组件
Spark计算模型
Spark 和Hadoop比较的差异和优点
Spark RDD及编程接口 Spark程序基本构成
Spark RDD
集合创建操作和存储创建操作
转换操作
控制操作(control operation)
行动操作(action operation)
Spark运行模式及原理 Spark运行模式列表
Spark基本工作流程
各种工作模式安装、部署、运行原理
  • Local运行模式
  • Standalone运行模式
  • Local cluster模式
  • Mesos模式
  • YARN standalone / YARN cluster模式
  • YARN client模式
  • 各种模式的实现细节比较
  • Spark调度管理原理
    Spark作业调度管理概述
    Spark调度相关基本概念?
    作业调度模块顶层逻辑概述
    作业调度具体工作流程
    任务集管理模块详解
    调度池和调度模式分析
    Spark应用之间的调度关系
    调度过程中的数据本地性问题
    Spark的存储管理 存储管理模块整体架构
  • 通信层架构
  • 通信层消息传递
  • 注册存储管理模块
  • 存储层架构
  • 数据块 (Block)
  • RDD 持久化
  • RDD分区和数据块的关系
  • 内存缓存
  • 磁盘缓存
  • 持久化选项
  • 如何选择不同的持久化选项
  • Shuffle数据持久化
    广播(Broadcast)变量持久化
    Spark监控管理 UI管理
  • 实时UI管理
  • 历史UI管理
  • Metrics管理
  • Metrics系统架构
  • Metrics系统配置
  • 输入源(Metrics Source)介绍
  • 输出方式(Metrics Sink)介绍
  • Shark架构与安装配置 Shark架构浅析
    Hive/Shark各功能组件对比
  • MetaStore
  • CLI/ Beeline
  • JDBC/ODBC
  • Hive Server/2 与 Shark Server/2
  • Driver 145
  • SQL Parser 146
  • 查询优化器(Query Optimizer)
  • 物理计划与执行
  • Shark安装配置与使用
  • 安装前准备工作
  • 在不同运行模式下安装Shark
  • Shark SQL命令行工具(CLI)
    使用Shark Shell命令
    启动Shark Server
    Shark Server2配置与启动
    缓存数据表?
    SQL程序扩展 程序扩展并行运行模式
    Evaluator和ObjectInspector
    自定义函数扩展
    自定义数据存取格式
    Spark SQL逻辑架构
    Catalyst上下文(Context)
    Java API
    Python API
    Spark SQL CLI
    Thrift服务
    Spark Streaming流数据处理框架 Spark Streaming基本概念
    性能调优
  • 运行时间优化
  • 内存使用优化
  • 容错处理
    DStream作业的产生和调度
    DStream与RDD关系
    数据接收原理
    自定义数据输入源
    自定义监控接口(StreamingListener)
    Spark Streaming案例分析
    GraphX计算框架 图并行计算
  • 数据并行与图并行计算
  • 图并行计算框架简介
  • GraphX简介
  • GraphX模型设计
  • 数据模型
  • 图计算接口
  • GraphX模型实现
  • 图的分布式存储
  • 图操作执行策略
  • 图操作执行优化
  • 序列化和反序列化
  • GraphX内置算法库
  • GraphX应用
  • Pregel模型
  • N维邻接关系计算
  • Tachyon存储系统 设计原理
    框架设计
  • 主节点
  • 工作节点
  • 客户端
  • 读写工作流程
  • Tachyon的部署
  • 单机部署
  • 分布式部署
  • Tachyon的配置
  • Tachyon应用

    如果课程内容不符合您的期望,可以定制内训
     
    780 次浏览   93 次
    其他人还看了课程
    数据挖掘与现代企业的数据化运营实践  468 次浏览
    Oracle海量数据和性能优化  632 次浏览
    SQL Server数据库开发专家  465 次浏览
    Docker原理与实践  397 次浏览
    SQLServer性能优化  252 次浏览
    Teradata数据库管理、应用与优化  631 次浏览
    定制内训



    咨询服务:大数据技术平台构建与应用
    咨询目标 帮助客户设计、规划大数据架构
    帮助客户建立大数据技术平台,
    帮助客户建立大数据分析模型
    咨询范围 大数据架构:数据结构模型,存储空间,数据分析模型
    大数据技术平台:分布式存储与计算平台,采集工具,分析工具
    大数据分析应用案例:分析模型,结果报告
    咨询方式 调查分析客户当前的数据资源和使用情况。
    为客户设计大数据架构
    搭建大数据技术平台
    建立大数据分析应用示例。
    详情咨询:010-62670969, zhgx@uml.net.cn

    最新活动计划
    [北京]用户体验与界面设计 6-15
    [北京]Devops体系、工具平台 6-16
    [北京]持续集成测试最佳实践 6-24
    [北京]人工智能机器和深度学习 5-19
    [北京]需求分析与管理 5-15
    [北京]嵌入式软件测试 5-25
    [北京]微服务架构设计与实践 5-27
    [北京]UML和EA进行系统分析设计 6-1
    [上海]软件架构设计案例与实践 5-11
    [上海]产品设计与用户体验 5-15
    [上海]自动化测试方法、案例实践 5-26
    [深圳] 软件设计模式最佳实践 5-26
    [深圳]Oracle数据库SQL优化 6-9
     
     
     

     
    每天2个文档/视频
    扫描微信二维码订阅
    订阅技术月刊
    获得每月300个技术资源
     
    希望我们的资料可以帮助你学习,也欢迎投稿&提建议给我
    频道编辑:sky
    邮       件:sky@uml.net.cn

    关于我们 | 联系我们 | 京ICP备10020922号 京公海网安备110108001071号