求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Model Center   Code  
会员   
 
 
 
开班计划 | 技术学院 | 管理学院 | 嵌入式学院 | 机械 | 军工学院 | 定向培养 | 专家指导 | 角色培养  
 电话 English
成功案例   品质保证
成功案例
中航信 数据湖架构原理与应
某医疗磁 数据采集与处理
某科技公 大数据(Hadoo
诺基亚 Python基础
天津电子 Elasticse
中国电信 数据仓库与数据挖掘
某航天科 MySQL性能优化

相关课程  
并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
HBase原理与高级应用
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理
 
全部课程 >大数据  
基于Spark的大数据分析 
3382 次浏览  57 次
Willam
某世界知名企业大数据技术专家,具有电商、银行、电信多个行业大数据经验
 
时间地点: 北京 上海 深圳根据报名开班
课程费用:5000元/人
报公开课  
企业内训:可以根据企业需求,定制内训,详见 内训学习手册


认证方式:
培训前了解能力模型。
培训后进行能力评测:
  • 在线考试
  • 能力分析,给出学习建议
  • 合格者颁发证书,作为职业技能资格证明


    在本课程中,学员们将对Spark数据处理的原理,开源项目,技术方法有一个全面的了解。由于Spark与Hadoop、HBase直接的密切联系,课程对三者之间的联合使用进行了介绍。流计算作为Spark的重要扩展,也会在课程中进行介绍,此外Spark Streaming与Kafka的联合使用,也是流计算中的重要介绍部分。开源项目的社区组织、许可协议与产品发布的基本了解也极其重要,不仅仅可以规避潜在的法律风险,恰当的使用更可以显著的降低软件开发与维护成本。通过练习,还将对Spark处理的流程和方法有一个初步的实践。在单机实践之外,也会讲解集群的特性以及性能和高可用相关主题和案例分享。

    培训目标:

    • 理解并掌握Spark 整体架构设计与编程模型
    • 能够编写并部署Spark程序与测试代码
    • 掌握能够将kafka结合Spark streaming使用的方法
    • 掌握Spark与HDFS、HBase的结合使用方法
    • 理解Spark与Zookeeper结合高可用性部署方案
    • 能够对Spark进行优化(内存、并发等)
    • 了解在以往经验中容易出现错误的地方以及相应的解决方案
    • 了解Spark MLlib的使用
    • 了解Hadoop MapReduce与Spark的关系与差异
    培训对象:应用开发人员,软件架构师,系统架构师
    学员基础:Java基础,Linux基础
    授课方式: 定制课程 + 案例讲解 + 小组讨论,60%案例讲解,40%实践演练
    培训内容:2天

    Spark概述

    • 大数据起源
    • 离线分析、在线分析与流计算
    • 开源大数据包Spark概述
    • Spark的扩展包SQL、MLLib和GraphX
    • 开源社区的组织结构与开源条款
    • 案例解析:一个跨国IT企业的开源包使用法务流程与风险规避

    Scala编程原理

    • Scala:函数式编程
    • 安装Scala集成开发环境
    • 使用Scala分析北京汽车摇号结果
    • 将MapReduce程序迁移到Spark上
    • 实战练习:在本机上使用scala进行简单的spark编程

    Spark Streaming流计算

    • Spark Streaming概述
    • Kafka概述
    • 基于Kafka数据源的Spark Stream练习
    • 在本机上使用scala进行简单地Spark Streaming编程,数据源使用Kafka

    Spark的分布式存储

    • Standalone Spark集群配置
    • HDFS集群配置
    • 编写Scala程序访问HDFS
    • 实战练习:在本机上使用scala进行简单的HDFS数据访问

    Spark与NOSQL

    • NOSQL存储特征与数据格式
    • 使用Scala进行HBase数据分析示例
    • 实战练习:在本机上使用scala进行HBase数据访问

    Spark与Yarn

    • Spark on Yarn集群配置
    • Spark on Yarn与standalone相比的优势
    • 案例分析:某巨型互联网公司基于Spark on Yarn的超大规模集群部署案例分析

    Spark与MapReduce

    • Spark计算模型和MapReduce的对比
    • Spark与MapReduce的相同点
    • Spark与MapReduce的差异

    Spark性能

    • Spark资源调度方法
    • CPU、内存、网络与存储配置对性能的影响及常用调优参数
    • 案例解析:一个跨国IT企业的spark集群构建方法与参数选择

    Spark与MLlib

    • 机器学习的常用算法
    • 使用Spark MLlib实现机器学习算法

    Spark与ZooKeeper

    • 通过ZooKeeper实现Spark高可用架构

    Spark的案例

    • 一个基于Spark与Hadoop的实时分析系统架构设计与实现—某银行的大数据体系介绍以及spark在其中扮演的角色
    • 方案设计
    • 分析算法确定
    • 分析算法与数据流设计
    • 技术实现演示
       
    3382 次浏览  57 次
    其他人还看了课程
    基于ELKStack的自动化日志平台实战  1619 次浏览
    Power BI 数据分析实战  2388 次浏览
    Qlik Sense数据分析技术  350 次浏览
    面向数字化转型的大数据顶层设计实践  222 次浏览
    大数据应用:从认知、实践到价值创造  235 次浏览
    Apache Kylin平台应用与实操  2899 次浏览
    定制内训


    咨询服务:数据库设计与性能优化
    咨询目标 对客户的数据库进行性能评价,设计优化,管理优化
    咨询范围 数据库性能评价,数据库结构优化,数据访问SQL优化。
    咨询方式 现有数据库调查,问题诊断,性能评价。
    对数据库进行逻辑结构优化,对数据库进行访问SQL优化。
    建立数据库运行监控平台。运行监控与优化方法指导。
    成功案例 建设银行,中国农业银行,中国工商银行,中航信
    详情咨询:010-62670969, zhgx@uml.net.cn
    课程计划
    QT应用开发 11-21[线上]
    C++高级编程 11-27[北京]
    LLM大模型应用与项目构建 12-26[特惠]
    UML和EA进行系统分析设计 12-20[线上]
    数据建模方法与工具 12-3[北京]
    SysML建模专家 1-16[北京]