求知 文章 文库 Lib 视频 iProcess 课程 认证 咨询 工具 讲座 Modeler   Code  
会员   
 
 
 
开班计划 | 技术学院 | 管理学院 | 嵌入式学院 | 电子&机械 | 军工学院 | 专家指导  
 电话 English
成功案例   品质保证
 
   
成功案例
某工程研 数据库设计与优化
知名财险 Oracle数据库
某金融公 Mysql集群与性
知名某信 NoSQL缓存数据
财政部唯 大数据分析专题-R
神龙汽车 大数据技术平台-H
中国电信 大数据时代与现代企

相关课程  
并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
HBase原理与高级应用
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理
 
全部课程 >大数据  
基于Spark的大数据分析 
1445 次浏览  110 次
Willam
某世界知名企业大数据技术专家,具有电商、银行、电信多个行业大数据经验
 
时间地点: 北京 上海 深圳根据报名开班
课程费用:5000元/人
报线下课
企业内训:可以根据企业需求,定制内训,详见 内训学习手册


认证方式:
培训前了解能力模型。
培训后进行能力评测:
  • 在线考试
  • 能力分析,给出学习建议
  • 合格者颁发证书,作为职业技能资格证明


    在本课程中,学员们将对Spark数据处理的原理,开源项目,技术方法有一个全面的了解。由于Spark与Hadoop、HBase直接的密切联系,课程对三者之间的联合使用进行了介绍。流计算作为Spark的重要扩展,也会在课程中进行介绍,此外Spark Streaming与Kafka的联合使用,也是流计算中的重要介绍部分。开源项目的社区组织、许可协议与产品发布的基本了解也极其重要,不仅仅可以规避潜在的法律风险,恰当的使用更可以显著的降低软件开发与维护成本。通过练习,还将对Spark处理的流程和方法有一个初步的实践。在单机实践之外,也会讲解集群的特性以及性能和高可用相关主题和案例分享。

    培训目标:

    • 理解并掌握Spark 整体架构设计与编程模型
    • 能够编写并部署Spark程序与测试代码
    • 掌握能够将kafka结合Spark streaming使用的方法
    • 掌握Spark与HDFS、HBase的结合使用方法
    • 理解Spark与Zookeeper结合高可用性部署方案
    • 能够对Spark进行优化(内存、并发等)
    • 了解在以往经验中容易出现错误的地方以及相应的解决方案
    • 了解Spark MLlib的使用
    • 了解Hadoop MapReduce与Spark的关系与差异
    培训对象:应用开发人员,软件架构师,系统架构师
    学员基础:Java基础,Linux基础
    授课方式: 定制课程 + 案例讲解 + 小组讨论,60%案例讲解,40%实践演练
    培训内容:2天

    Spark概述

    • 大数据起源
    • 离线分析、在线分析与流计算
    • 开源大数据包Spark概述
    • Spark的扩展包SQL、MLLib和GraphX
    • 开源社区的组织结构与开源条款
    • 案例解析:一个跨国IT企业的开源包使用法务流程与风险规避

    Scala编程原理

    • Scala:函数式编程
    • 安装Scala集成开发环境
    • 使用Scala分析北京汽车摇号结果
    • 将MapReduce程序迁移到Spark上
    • 实战练习:在本机上使用scala进行简单的spark编程

    Spark Streaming流计算

    • Spark Streaming概述
    • Kafka概述
    • 基于Kafka数据源的Spark Stream练习
    • 在本机上使用scala进行简单地Spark Streaming编程,数据源使用Kafka

    Spark的分布式存储

    • Standalone Spark集群配置
    • HDFS集群配置
    • 编写Scala程序访问HDFS
    • 实战练习:在本机上使用scala进行简单的HDFS数据访问

    Spark与NOSQL

    • NOSQL存储特征与数据格式
    • 使用Scala进行HBase数据分析示例
    • 实战练习:在本机上使用scala进行HBase数据访问

    Spark与Yarn

    • Spark on Yarn集群配置
    • Spark on Yarn与standalone相比的优势
    • 案例分析:某巨型互联网公司基于Spark on Yarn的超大规模集群部署案例分析

    Spark与MapReduce

    • Spark计算模型和MapReduce的对比
    • Spark与MapReduce的相同点
    • Spark与MapReduce的差异

    Spark性能

    • Spark资源调度方法
    • CPU、内存、网络与存储配置对性能的影响及常用调优参数
    • 案例解析:一个跨国IT企业的spark集群构建方法与参数选择

    Spark与MLlib

    • 机器学习的常用算法
    • 使用Spark MLlib实现机器学习算法

    Spark与ZooKeeper

    • 通过ZooKeeper实现Spark高可用架构

    Spark的案例

    • 一个基于Spark与Hadoop的实时分析系统架构设计与实现—某银行的大数据体系介绍以及spark在其中扮演的角色
    • 方案设计
    • 分析算法确定
    • 分析算法与数据流设计
    • 技术实现演示
     
    1445 次浏览  110 次
    其他人还看了课程
    Flume & Kafka原理与实践  684 次浏览
    Spark内存计算框架原理与实践应用  747 次浏览
    基于Flink搭建流计算平台  634 次浏览
    Kafka 原理剖析及实战演练  99 次浏览
    Hadoop与Spark大数据架构专题  4767 次浏览
    Storm与大数据分析  866 次浏览
    定制内训


    咨询服务:大数据技术平台构建与应用
    咨询目标 帮助客户设计、规划大数据架构
    帮助客户建立大数据技术平台,
    帮助客户建立大数据分析模型
    咨询范围 大数据架构:数据结构模型,存储空间,数据分析模型
    大数据技术平台:分布式存储与计算平台,采集工具,分析工具
    大数据分析应用案例:分析模型,结果报告
    咨询方式 调查分析客户当前的数据资源和使用情况。
    为客户设计大数据架构
    搭建大数据技术平台
    建立大数据分析应用示例。
    详情咨询:010-62670969, zhgx@uml.net.cn

    最新活动计划
    基于Kubernetes的DevOps实践 10-22[北京]
    需求分析管理 11-5[北京]
    软件开发过程中的质量管理实践 11-16[北京]
    人工智能,机器学习和深度学习 11-26 [北京]
    业务架构到IT架构(TOGAF9.2认证)11-28[北京]
    企业级全栈自动化测试技术 10-16 [上海]
    大数据平台架构与应用实战 11-8[上海]
    Python及数据分析 11-25 [深圳]
    某军工研究单位  嵌入式软件架构
    某银行  人工智能+Python+大数据
    中国机械集团某研究院   基于模型的系统工程(MBSE)
    航天科工某子公司  C++中级开发实战(SOUI)
    中航工业某研究所  嵌入式软件开发指南
     
     
     

     
    每天2个文档/视频
    扫描微信二维码订阅
    订阅技术月刊
    获得每月300个技术资源
     
    希望我们的资料可以帮助你学习,也欢迎投稿&提建议给我
    频道编辑:sky
    邮       件:sky@uml.net.cn

    关于我们 | 联系我们 | 京ICP备10020922号 京公海网安备110108001071号