求知 文章 文库 Lib 视频 Code iProcess 课程 角色 咨询 工具 火云堂 讲座吧   成长之路  
会员   
 
 
 
全部课程 | 技术学院 | 管理学院 | 嵌入式学院 | 在线学院  
成功案例   品质保证  电话 English
追随技术信仰

随时听讲座
每天看新闻
 
   
成功案例
某金融公 Mysql集群与性
知名某信 NoSQL缓存数据
财政部唯 大数据分析专题-R
神龙汽车 大数据技术平台-H
中国电信 大数据时代与现代企
某知名银 大数据分析专题-R
IGT 数据分析与挖掘

相关课程  
并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
HBase原理与高级应用
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理
 
全部课程 >大数据  
基于Spark的大数据分析 
1174 次浏览  100 次
Willam
某世界知名企业大数据技术专家,具有电商、银行、电信多个行业大数据经验
 
时间地点: 北京 上海 深圳根据报名开班
课程费用:5000元/人
报线下课
企业内训:可以根据企业需求,定制内训,详见 内训学习手册


认证方式:
培训前了解能力模型。
培训后进行能力评测:
  • 在线考试
  • 能力分析,给出学习建议
  • 合格者颁发证书,作为职业技能资格证明


    在本课程中,学员们将对Spark数据处理的原理,开源项目,技术方法有一个全面的了解。由于Spark与Hadoop、HBase直接的密切联系,课程对三者之间的联合使用进行了介绍。流计算作为Spark的重要扩展,也会在课程中进行介绍,此外Spark Streaming与Kafka的联合使用,也是流计算中的重要介绍部分。开源项目的社区组织、许可协议与产品发布的基本了解也极其重要,不仅仅可以规避潜在的法律风险,恰当的使用更可以显著的降低软件开发与维护成本。通过练习,还将对Spark处理的流程和方法有一个初步的实践。在单机实践之外,也会讲解集群的特性以及性能和高可用相关主题和案例分享。

    培训目标:

    • 理解并掌握Spark 整体架构设计与编程模型
    • 能够编写并部署Spark程序与测试代码
    • 掌握能够将kafka结合Spark streaming使用的方法
    • 掌握Spark与HDFS、HBase的结合使用方法
    • 理解Spark与Zookeeper结合高可用性部署方案
    • 能够对Spark进行优化(内存、并发等)
    • 了解在以往经验中容易出现错误的地方以及相应的解决方案
    • 了解Spark MLlib的使用
    • 了解Hadoop MapReduce与Spark的关系与差异
    培训对象:应用开发人员,软件架构师,系统架构师
    学员基础:Java基础,Linux基础
    授课方式: 定制课程 + 案例讲解 + 小组讨论,60%案例讲解,40%实践演练
    培训内容:2天

    Spark概述

    • 大数据起源
    • 离线分析、在线分析与流计算
    • 开源大数据包Spark概述
    • Spark的扩展包SQL、MLLib和GraphX
    • 开源社区的组织结构与开源条款
    • 案例解析:一个跨国IT企业的开源包使用法务流程与风险规避

    Scala编程原理

    • Scala:函数式编程
    • 安装Scala集成开发环境
    • 使用Scala分析北京汽车摇号结果
    • 将MapReduce程序迁移到Spark上
    • 实战练习:在本机上使用scala进行简单的spark编程

    Spark Streaming流计算

    • Spark Streaming概述
    • Kafka概述
    • 基于Kafka数据源的Spark Stream练习
    • 在本机上使用scala进行简单地Spark Streaming编程,数据源使用Kafka

    Spark的分布式存储

    • Standalone Spark集群配置
    • HDFS集群配置
    • 编写Scala程序访问HDFS
    • 实战练习:在本机上使用scala进行简单的HDFS数据访问

    Spark与NOSQL

    • NOSQL存储特征与数据格式
    • 使用Scala进行HBase数据分析示例
    • 实战练习:在本机上使用scala进行HBase数据访问

    Spark与Yarn

    • Spark on Yarn集群配置
    • Spark on Yarn与standalone相比的优势
    • 案例分析:某巨型互联网公司基于Spark on Yarn的超大规模集群部署案例分析

    Spark与MapReduce

    • Spark计算模型和MapReduce的对比
    • Spark与MapReduce的相同点
    • Spark与MapReduce的差异

    Spark性能

    • Spark资源调度方法
    • CPU、内存、网络与存储配置对性能的影响及常用调优参数
    • 案例解析:一个跨国IT企业的spark集群构建方法与参数选择

    Spark与MLlib

    • 机器学习的常用算法
    • 使用Spark MLlib实现机器学习算法

    Spark与ZooKeeper

    • 通过ZooKeeper实现Spark高可用架构

    Spark的案例

    • 一个基于Spark与Hadoop的实时分析系统架构设计与实现—某银行的大数据体系介绍以及spark在其中扮演的角色
    • 方案设计
    • 分析算法确定
    • 分析算法与数据流设计
    • 技术实现演示
     
    1174 次浏览  100 次
    其他人还看了课程
    Apache Kylin平台应用与实操  520 次浏览
    大数据工具Flume&Kafka集成实践  479 次浏览
    大数据架构设计实战演练  1122 次浏览
    大数据搜索框架(ElasticSearch)与应用  684 次浏览
    Scala编程语言  585 次浏览
    基于Hadoop大数据平台数据治理  676 次浏览
    定制内训


    咨询服务:大数据技术平台构建与应用
    咨询目标 帮助客户设计、规划大数据架构
    帮助客户建立大数据技术平台,
    帮助客户建立大数据分析模型
    咨询范围 大数据架构:数据结构模型,存储空间,数据分析模型
    大数据技术平台:分布式存储与计算平台,采集工具,分析工具
    大数据分析应用案例:分析模型,结果报告
    咨询方式 调查分析客户当前的数据资源和使用情况。
    为客户设计大数据架构
    搭建大数据技术平台
    建立大数据分析应用示例。
    详情咨询:010-62670969, zhgx@uml.net.cn

    最新活动计划
    [北京]软件测试方法与实践 12-17
    [北京]UML和EA进行系统分析设计 1-10
    [北京]软件设计模式最佳实践 12-20
    [北京]大数据分析与管理 1-17
    [上海]嵌入式软件可靠性设计 12-19
    [上海]Kubernetes构建企业容器云 12-21
    [深圳]数据仓库多维建模方法应用 12-29
     
     
     

     
    每天2个文档/视频
    扫描微信二维码订阅
    订阅技术月刊
    获得每月300个技术资源
     
    希望我们的资料可以帮助你学习,也欢迎投稿&提建议给我
    频道编辑:sky
    邮       件:sky@uml.net.cn

    关于我们 | 联系我们 | 京ICP备10020922号 京公海网安备110108001071号