大数据落地技术系列课程培训-火龙果软件

咨询

成功案例

相关课程

全部课程 >大数据

大数据落地技术系列课程

6141 次浏览

91 次


KentMark
曾任淘宝高级专家、负责大数据有关的应用工作。

时间地点： 北京上海深圳根据报名开班

课程费用：6500元/人

报公开课

要内训

企业内训：可以根据企业需求,定制内训,详见内训学习手册

认证方式：
培训前了解能力模型。
培训后进行能力评测：

在线考试

能力分析，给出学习建议

合格者颁发证书，作为职业技能资格证明

本大数据课程较少讲解概念和理念，而是直接围绕“大数据存储、大数据计算、大数据挖掘”三大核心技术实现，以及金融行业落地场景为主要内容提纲展开，请课程学员对大数据背景理论有初步学习了解。本系列课程都是偏实战落地，课程学员需要在课程上做好动手准备。

培训目标：

大数据计算
大数据存储
大数据挖掘

培训对象：大数据相关的开发、运维、应用分析人员，架构师

学员基础：了解大数据一般概念和应用场景

授课方式： 定制课程 + 案例讲解 + 小组讨论，60%案例讲解，40%实践演练

主题1：大数据计算（8-9小时）
主要讲解大数据计算的技术架构原理和实践：分布式计算是大数据分析应用最广泛最基础的核心技术，本课程聚焦分布式并行计算（map/reduce）、实时流计算、内存计算、BSP计算等架构和落地实现，动手掌握分布式计算设计思想，并穿插金融行业应用案例。

分布式技术体系概述	1.分布式计算、并行计算、云计算、大数据概述 2.分布式产品hadoop、zookeeper、hbase概述
分布式并行计算原理和设计	1、最初想到的master-slave结构 2、“包工头-职介所-手工仓库-工人”简化模式 3、基于消息中枢的计算模式 4、基于网状直接交互的计算模式 5、并行结合串行模式 6、批量多阶段处理模式 7、计算集群模式和兼容遗留计算系统 8、工人计算的服务化模式 9、storm流处理计算架构解析 10、简化的实时流处理计算模式 11、跟hadoop map/reduce的区别 12、初级应用：动手跑一个基本例子（动手） 13、中级应用：计算节点互相交互的完整例子（动手） 14、高级应用：使用并行计算大幅提升算法效率例子（动手） 15、相关架构探讨（需求、运维、故障、优化等）
分布式协调原理和设计	1、协调架构原理简介 2、权限机制 3、相对于zookeeper的区别 4、与paxos算法的区别 5、实践应用：领导者选举和应用（动手） 6、统一配置管理（动手） 7、集群管理（动手） 8、分布式锁（动手） 9、相关架构探讨（需求、运维、故障、优化等）
分布式消息队列的实现	1、jms的两种经典模式 2、如何实现发送接收的队列模式 3、如何实现主题订阅模式

主题2：大数据存储（8-9小时）
主要讲解大数据存储的技术架构原理和实践：聚焦业界，并重点剖析分布式缓存、分布式文件存储、k/v存储，一般互联网企业的分布式存储系统都是个大平台，系统复杂、代码庞大，而且只适合公司的业务，工程师很难下载安装到自己的电脑里学习和吃透。本课程从作者多年实战经验出发，对分布式存储技术进行了大量归纳和总结，并动手搭建分布式存储环境，用最基本的程序实现分布式存储功能，你会感慨原来分布式存储可以如此简单的实现，如此轻松的上手...

分布式缓存架构和实现	1、小型网站或企业应用的缓存实现架构 2、大型分布式缓存系统实现过程 3、一致性哈希算法的原理、改进和实现 4、解决任意扩容的问题 5、解决扩容后数据均匀的问题 6、分布式session的架构设计和实现 7、按日期取模无迁移扩容算法 8、相关架构探讨（需求、运维、故障、优化等）
分布式文件系统架构和实现	1、简化的分布式文件系统架构 2、如何设计和利用集群分布式文件解决计算数据存储问题 3、访问集群文件根目录 4、访问和操作远程文件（动手） 5、集群内文件复制和并行复制（动手） 6、读写远程文件（动手） 7、解析远程文件（动手） 8、并行读写远程文件（动手） 9、批量并行读写远程文件和事务补偿处理（动手） 10、相关架构探讨（需求、运维、故障、优化等）
分布式k/v数据库存储技术的变革	数据库作为企业信息系统的最基础软件，面临着分布式存储、nosql、k/v、并行数据库等创新技术的冲击，如何实现百万吞吐量的数据库帮助加速大数据的计算分析和实时查询。 1、从关系数据库架构到k/v数据库架构 2、缓存和持久存储在越来越接近 3、kv nosql数据库和文档nosql数据库 4、redis架构分析 5、Aerospike+SSD持久化架构分析 6、淘宝Tair架构分析 7、LevelDB架构分析 8、Tokyo Cabinet架构分析 9、KyotoCabinet架构分析 10、CouchDB&Membase&Couchbase架构分析 11、百万吞吐量的新型并行数据库CoolHash架构 12、动手体验（易用性、功能、性能） 13、相关架构探讨（需求、运维、故障、优化等）

主题3：大数据挖掘（8-9小时）
数据挖掘和机器学习是属于大数据的核心技术之一，以科学严谨的数据依据帮助企业做分析决策，同时其高深的理论门槛也阻挡了广大工程师的学习上手，在大数据时代，如何进行基于海量数据在成百上千的机器进行分布式数据挖掘更是需要解决的难题，本课程从实战角度出发，基于企业实际需求，深入浅出的讲解数据挖掘最常用的算法和企业场景，让工程师通俗易懂的掌握，并且进行编程落地实践培训，让抽象的算法公式完全落地为工程化的程序为企业所用。详细内容参考课程提纲：

大数据分析挖掘技术介绍	1、map/reduce 2、mahout数据挖掘 3、sql on hadoop 4、spark生态体系 5、R语言 6、MPI并行计算 7、GPU并行计算（深度学习） 8、java并行计算框架
常用机器学习算法原理	1、决策树 2、随机森林 3、协同过滤推荐算法(余弦相似、修正余弦) 4、Jaccard算法 5、朴素贝叶斯算法 6、k-means聚类算法 7、pagerank算法 8、逻辑回归 9、图计算
大数据挖掘业务场景和生产平台	1、互联网金融业务—如何构建阿里金融系统 2、银行客户需求业务 3、大数据分析生产平台 4、推荐/广告系统的原理、架构、模型、验证等。 5、基于GBDT的组合模型架构
编程实践（动手）	1、迭代类机器学习编程入门-求圆周率 2、pagerank的并行化实现（*） 3、逻辑回归算法的java实现 4、决策树c45,id3的java实现 5、随机森林和全树并行化实现 6、训练数据和结果模拟器 7、模型结果规则化处理 8、协同过滤java实现 9、基于图计算的推荐java实现

报公开课

要内训

6141 次浏览

91 次

其他人还看了课程

Qlik Sense原理与数据分析技术 2634 次浏览

工业互联网：智能制造与数字化平台建设 2590 次浏览

Apache Kylin平台应用与实操 6329 次浏览

大数据工具Flume&Kafka集成实践 5453 次浏览

大数据架构设计实战演练 7349 次浏览

数据治理与数据资产管理 9488 次浏览

大数据搜索框架（ElasticSearch）与应用 6172 次浏览

	咨询服务：数据库设计与性能优化

咨询目标	对客户的数据库进行性能评价，设计优化，管理优化
咨询范围	数据库性能评价，数据库结构优化，数据访问SQL优化。
咨询方式	现有数据库调查，问题诊断，性能评价。对数据库进行逻辑结构优化，对数据库进行访问SQL优化。建立数据库运行监控平台。运行监控与优化方法指导。
成功案例	建设银行，中国农业银行，中国工商银行，中航信

详情咨询：010-62670969， zhgx@uml.net.cn

课程计划

UAF架构体系与实践 7-23[北京]

SysML和EA系统设计与建模 7-16[深圳]

Spec 驱动开发(SDD)实战 7-28[北京]

AI辅助软件测试方法与实践 7-31[在线]

AI智能体开发技术实践 8-6[上海]

基于UML和EA系统分析设计 8-20[上海]