曙海培训-大数据平台搭建与高性能计算培训课程-中心|曙海培训基地广州上海苏州深圳成都南京重庆北京

培训目标：

· 彻底理解Hadoop代表的云计算实现技术的能力；

· 具备开发自己网盘的能力；

· 具备修改HDFS源码和具体源码实现的能力；

· 具备掌握MapReduce内部运行和实现细节并改造MapReduce的能力；

· 具备掌握Hive企业级开发和管理的能力；

· 掌握Spark的企业级开发的所有核心内容，包括Spark架构设计、Spark内核剖析、Shark、SparkSQL、SparkStreaming、、机器学习MLlib、SparkonYarn、JobServer等；

· 掌握Spark和Hadoop协同工作，能够通过Spark和Hadoop轻松应对大数据的业务需求；

· 掌握企业线上生产系统中应用Spark/Hadoop成功案例，以及与现有企业BI平台整合的方案。

· 掌握Flink的的体系架构，以及企业线上生产系统中应用Flink成功案例

· 掌握Flink Runtime、DataSet API、DataStream API，以及Flink SQL的使用

培训对象：大数据架构师、数据平台开发工程师

学员基础：具有一定的数据设计、开发和管理经验

授课方式：定制课程 + 案例讲解 + 小组讨论，60%案例讲解，40%实践演练

主题	章节	详细内容
大数据平台概览	大数据处理平台架构基础	大数据的产生背景、发展历程大数据和云计算的关系大数据应用需求以及潜在价值分析业界最新的大数据技术发展态势与应用趋势大数据项目的技术选型与大数据处理系统架构设计 “互联网+”时代下的电子商务、制造业、零售批发业、电信运营商、互联网金融业、网上银行、电子政务、移动互联网、教育信息化等行业应用实践与应用案例剖析
	业界主流的大数据技术产品与项目解决方案	国内外主流的大数据解决方案介绍当前大数据解决方案与传统数据库方案的剖析比较 Apache大数据平台方案剖析 CDH大数据平台方案剖析 HDP大数据平台方案剖析开源的大数据生态系统平台剖析
	Hadoop大数据平台核心技术剖析	Hadoop的发展历程以及产业界的实际应用介绍 Hadoop大数据平台架构基于Hadoop平台的PB级大数据存储管理与分析处理的工作原理与机制 Hadoop的核心组件剖析
Hadoop的大数据体系架构	Hadoop的起源	什么是大数据？专有云上的混搭平台设计 OLTP系统和OLAP系统数据仓库的基本概念 Google的基本思想
	Hadoop的体系结构和原理	海量数据的存储HDFS · 文件上传的过程 · 文件下载的过程 · 原信息的合并过程海量数据的计算MapReduce · YARN的工作原理 · MapReduce作业执行的过程和原理 HBase的基本架构
	Hadoop集群模式的安装和配置	单机模式的安装和配置伪分布模式的安装和配置免密码登录的原理配置Hadoop的集群环境配置和使用HUE
	Hadoop HA	集群的规划安装Zookeeper集群环境安装配置hadoop集群验证HDFS的HA 验证YARN
	Hadoop应用案例分析	案例一：互联网应用架构案例二：日志分析案例三：Hadoop在淘宝的应用
分布式文件系统HDFS	访问HDFS	使用命令行访问HDFS文件系统使用Java编程接口访问HDFS文件系统
	HDFS的高级特性	什么是HDFS的联盟 HDFS的回收站 HDFS的配额 HDFS的权限
	HDFS的底层原理	什么是RPC通信？什么是动态代理？
	HDFS的优化	NameNode的优化策略 SecondaryNameNode的优化策略文件存储的优化 HDFS的瓶颈和解决方案
	HDFS的NameNode联盟	什么是NameNode的联盟 NameNode的体系架构搭建NameNode的联盟架构
分布式计算模型MapReduce和Yan	MapReduce基础编程	MapReduce的基本概念和原理数据在MapReduce的流动过程第一个MapReduce程序和运行MapReduce程序
	MapReduce高级编程	序列化的基本概念编写MapReduce序列化的程序 MapReduce的排序 MapReduce的分区什么是Combiner 什么是Shuffle
	Yarn的优化	Yarn的内存使用 Yarn的资源调度策略 MapReduce任务的优化
数据分析引擎	数据分析之Hive	· 什么是Hive和Hive的体系结构 · 安装和配置Hive · 使用HQL · Hive的客户端：CLI客户端和Java编程 · 接口 Hive的自定义函数 Hive的数据模型 · 内部表 · 分区表 · 桶表 · 视图 · 物化视图
数据分析引擎	数据分析之Pig	什么是Pig和Pig的体系结构安装和配置Pig Pig的数据模型使用Pig Latin语句进行数据的分析 Pig的自定义函数
数据交换引擎	Sqoop和Flume	使用Sqoop进行数据的交换 · 什么是Sqoop体系结构 · 使用Sqoop进行数据的交换使用Flume进行数据的采集 · 什么是Flume体系结构 · 使用Flume进行数据的采集
基于HDFS的存储系统	HBase数据库	HBase简介及其在Hadoop中的位置 HBASE的伪分布的搭建 HBASE的底层存储模型和基本概念 HBASE的读写原理 HBASE的高级特性 HBase的体系结构 HBASE Shell HBASE的批量导入 HBASE的Java客户端
分布式协调服务	Zookeeper	什么是Zookeeper?及其功能 Zookeeper的体系结构和数据模型 Zookeeper安装及测试 Zookeeper的Java接口 Watcher及内部事件 Zookeeper的工作原理基于ZooKeeper的大数据的HA架构及其实现
基于Spark的大数据分析平台	Scala编程语言	Scala语言基础 Scala语言的面向对象 Scala语言的函数式编程 Scala中的集合 Scala语言的高级特性
	Spark Core核心	什么是Spark？Spark生态圈 Spark的体系结构与安装部署执行Spark Demo程序 Spark运行机制及原理分析 Spark的算子 Spark RDD的高级算子 Spark基础编程案例
	Spark SQL数据分析引擎	Spark SQL基础使用数据源性能优化在IDEA中开发Spark SQL程序
	Spark Streaming流式计算框架	Structured Streaming基础 Structured Streaming的程序模型 Datasets 和 DataFrames API 管理和监控流式查询
基于Hadoop和Spark大数据平台的机器学习	Mahout和Spark MLlib	在机器学习中的使用，常用算法实战（Mahout和spark MLlib） · Mahout与Spark MLLib · 基于协同过滤算法 · 基于ALS协同过滤算法 · 基于Spark MLLib的逻辑回归算法
下一代大数据处理引擎	Flink	Flink介绍 Flink的数据集 Flink两种执行模型 Flink-流计算模型-有界数据集处理 Flink的DataSet API Flink的DataStream API 广播变量、累加器和计数器状态管理和恢复 Window和Time Flink Table & SQL

大数据平台搭建与高性能计算培训课程-中心

课程介绍

最新课程列表