求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Model Center   Code  
会员   
 
 
 
开班计划 | 技术学院 | 管理学院 | 嵌入式学院 | 机械 | 军工学院 | 定向培养 | 专家指导 | 角色培养  
 电话 English
成功案例   品质保证
成功案例
中航信 数据湖架构原理与应
某医疗磁 数据采集与处理
某科技公 大数据(Hadoo
诺基亚 Python基础
天津电子 Elasticse
中国电信 数据仓库与数据挖掘
某航天科 MySQL性能优化

相关课程  
并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
HBase原理与高级应用
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理
 
全部课程 >大数据  
大数据(Hadoop、Spark、NOSQL)案例分析与实践
4389 次浏览  60 次
Gavin.Liu
云平台系统架构师,先后服务于北京大学软件研究所、高德软件、阿里巴巴等
 
地点时间:北京 、上海、深圳根据报名开班
课程费用5800元/人
报公开课  
企业内训:可以根据企业需求,定制内训,详见 内训学习手册



认证方式:
培训前了解能力模型。
培训后进行能力评测:
  • 在线考试
  • 能力分析,给出学习建议
  • 合格者颁发证书,作为职业技能资格证明


    当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。MapReduce作为一个经典的分布式计算框架,已经广为人知,且得到了广泛的应用,但MapReduce自身存在很多问题,包括迭代式计算和DAG计算等类型的数据挖掘与机器学习算法性能低下,不能很好地利用内存资源,编程复杂度较高等。为了克服MapReduce的众多问题,新型计算框架出现了。

    培训目标:
    本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程,涉及Spark、Hadoo系统基础知识,概念及架构, Spark、Hadoo实战技巧,Spark、Hadoo经典案例等。
    通过本课程实践,帮助学员对Spark、Hadoo生态系统有一个清晰明了的认识;理解Spark、Hadoo系统适用的场景;掌握Spark、Hadoo等初中级应用开发技能;搭建稳定可靠的Spar、Hadoo k集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,华为等。
    培训对象:各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。
    学员基础: 了解Linux系统及相关语言环境
    授课方式: 定制课程 + 案例讲解 + 小组讨论,60%案例讲解,40%实践演练

    培训内容:2天

    Hadoop简介和生态系统介绍
    • 传统大规模数据分析存在的问题
    • Hadoop概述
    • Hadoop与分布式文件系统
    • Hadoop生态系统
    • Hadoop的行业应用案例分析
    • Hadoop在云计算和大数据的位置和关系
    • Hadoop版本介绍
    • Hadoop与Google FS的关系
    • Hadoop在国内的使用情况和未来
    Hadoop安装和主要配置文件介绍
    • Hadoop安装所需软件介绍
    • Hadoop单机安装
    • Hadoop伪分布式安装
    • Hadoop完全分布式安装
    • Hadoop三个节点安装的配置介绍
    • Hahoop多节点ssh配置
    • Hadoop格式化详解
    • Hadoop核心配置文件介绍
    • 核心配置文件core-site.xml
    • HDFS配置文件hdfs-site.xml
    • Mapreduce配置文件mapred-site.xml
    • master文件配置详解
    • slave文件配置详解
    • Hadoop启动和停止方法一
      • start-all.sh详解
      • stop-all.sh详解
    • Hadoop的启动和停止方法二
      • hadoop-deamon.sh详解
    • Hadoop安装的常见错误介绍和解决方案
    • 使用自带的wordcount和pi测试集群安装是否成功
    • 使用Streaming来测试集群安装是否成功
    Hadoop组件介绍
    • Hadoop NameNode 介绍
    • Hadoop SecondaryNameNode介绍
    • Hadoop DataNode 介绍
    • Hadoop JobTracker 介绍
    • Hadoop TaskTracker 介绍
    Hadoop的HDFS模块
    • HDFS架构介绍
    • HDFS原理介绍
    • NameNode功能详解
    • DataNode功能详解
    • SecondaryNameNode功能详解
    • HSFD的fsimage和editslog详解
    • HDFS的block详解
    • HDFS的block的备份策略
    • Hadoop的机架感知配置
    • HDFS的shell命令介绍
    • HDFS的thrift server服务介绍
    • HDFS的API接口介绍
    • HDFS的权限详解
    • Hadoop的客服端接入案例
    MapReducer入门
    • Mapreduce原理
    • MapReduce流程
    • 剖析一个MapReduce程序
    • Mapper和Reducer抽象类详解
    • Mapreduce的最小驱动类
    • MapReduce自带的类型
    • 自定义Writables和WritableComparables
    • Mapreduce的输入InputFormats
    • MapReduce的输出OutputFormats
    • Combiner详解
    • Partitioner详解
    • DistributeFileSystem详解
    • Hadoop Tools工具介绍
    • Counter计数器详解
    • 自定义Counter计数器
    • 基于Hadoop二次开发实战
    • MapReduce的优化
    • Map和Reduce的个数设置
    • Hadoop小文件优化
    • 任务调度
    • 默认的任务调度
    • 公平任务调度
    • 能力任务调度
    • 使用 Hadoop MapReduce Streaming 编程
    • MapReduce的单元测试
    Hive
    • Hive和Pig基础
    • Hive、Impala和presto的比较
    • Hive的作用和原理说明
    • Hadoop仓库和传统数据仓库的协作关系
    • Hadoop/Hive仓库数据数据流
    • Hive部署和安装
    • HiveCli的基本用法
    • Hive的server启动
    • HQL基本语法
    • Hive的加载数据本地加载和HDFS加载
    • Hive的partition详解
    • Hive的存储方式详解
    • RCFILE、TEXTFILE和SEQUEUEFILE
    • Hive的UDF和UDAF
    • Hive的transform详解
    • Hive的JDBC连接
    Sqoop介绍
    • Sqoop是什么
    • Sqoop安装
    • Sqoop把mysql数据导入HDFS
    • Sqoop把HDFS数据导入Mysql
    • Sqoop吧Mysql数据导入Hive
    • Sqoop吧Mysql数据导入Hive分区
    Hadoop集群配置和维护
    • Hadoop集群的部署要点
    • NameNode和SecondaryNameNode和JobTracker机器的配置要求
    • dataNode与tasktracker机器的配置要求
    • Hadoop集群管理的工具介绍
    • Ganglia和nigos监控Hadoop集群介绍
    • Ambri介绍
    • 添加和删除节点演示
    • Namenode的单点解决方案
    • NameNode的NFS备份介绍
    • 集群所有dataNode挂掉的故障介绍
    • 集群NameNode的fsimage丢掉恢复方法
    • Hadoop集群维护的注意点
    Hbase使用
    • Hbase原理
    • Hmaster详解
    • RegionServer详解
    • Zookeeper介绍
    • Hbase安装
    • Hbase逻辑视图介绍
    • Hbase物理视图介绍
    • Hbase的二级索引介绍
    • Hbase的DDL和DML
    • Hbase表的设计案例
    • Hbase的import功能介绍
    • MapReduce操作Hbase
    • Hbase的thriftServer介绍
    • Hbase的API介绍
    • Hbase使用场景介绍
    • Hbase案例分析
    大数据在国内的运用
    • 大数据在国内的使用介绍
    • 离线计算框架介绍
    • 流式计算框架介绍
    • 内存计算框架介绍
    • 内存流式计算介绍
    • 大数据实时请求框架介绍
    • 大数据在移动的案例介绍
    • 大数据在银行的案例介绍
    • 大数据在阿里的案例介绍
    Spark生态介绍
    • Spark产生背景
    • Spark(内存计算框架)
    • SparkSteaming(流式计算框架)
    • SparkSQL(ad-hoc)
    • Mllib(MachineLearning)
    • GraphX(bagel将被代)
    spark安装部署
    • Spark安装简介
    • Spark的源码编译
    • SparkStandalone安装
    • SparkStandaloneHA安装
    • Spark应用程序部署工具spark-submit
    Spark运行架构和解析
    • Spark的运行架构
    • 基本术语
    • 运行架构
    • SparkonStandalone运行过程
    • SparkonYARN运行过程
    • Spark运行实例解析
    • SparkonStandalone实例解析
    • SparkonYARN实例解析
    SparkSQL原理和实践
    • SparkSQL原理
    • SparkSQL的Catalyst优化器
    • SparkSQL内核
    • SparkSQL和Hive
    • SparkSQL的实例和编程
    • SparkSQL的实例操作demo
    • SparkSQL的编程
       
    4389 次浏览  60 次
    其他人还看了课程
    Storm与大数据分析  2505 次浏览
    大数据平台架构与应用实战  4035 次浏览
    企业级Hadoop大数据处理最佳实践  9006 次浏览
    大数据( ELK Kafka)  3451 次浏览
    大数据系统运维  3727 次浏览
    数据可视化方法与实践  2382 次浏览
    定制内训



    咨询服务:数据库设计与性能优化
    咨询目标 对客户的数据库进行性能评价,设计优化,管理优化
    咨询范围 数据库性能评价,数据库结构优化,数据访问SQL优化。
    咨询方式 现有数据库调查,问题诊断,性能评价。
    对数据库进行逻辑结构优化,对数据库进行访问SQL优化。
    建立数据库运行监控平台。运行监控与优化方法指导。
    成功案例 建设银行,中国农业银行,中国工商银行,中航信
    详情咨询:010-62670969, zhgx@uml.net.cn
    课程计划
    QT应用开发 11-21[线上]
    C++高级编程 11-27[北京]
    LLM大模型应用与项目构建 12-26[特惠]
    UML和EA进行系统分析设计 12-20[线上]
    数据建模方法与工具 12-3[北京]
    SysML建模专家 1-16[北京]