| 主题  | 章节  | 详细内容 | 
| 大数据平台概览 | 大数据处理平台架构基础 | 大数据的产生背景、发展历程大数据和云计算的关系
 大数据应用需求以及潜在价值分析
 业界最新的大数据技术发展态势与应用趋势
 大数据项目的技术选型与大数据处理系统架构设计
 “互联网+”时代下的电子商务、制造业、零售批发业、电信运营商、互联网金融业、网上银行、电子政务、移动互联网、教育信息化等行业应用实践与应用案例剖析
 | 
| 业界主流的大数据技术产品与项目解决方案 | 国内外主流的大数据解决方案介绍当前大数据解决方案与传统数据库方案的剖析比较
 Apache大数据平台方案剖析
 CDH大数据平台方案剖析
 HDP大数据平台方案剖析
 开源的大数据生态系统平台剖析
 | 
| Hadoop大数据平台核心技术剖析 | Hadoop的发展历程以及产业界的实际应用介绍Hadoop大数据平台架构
 基于Hadoop平台的PB级大数据存储管理与分析处理的工作原理与机制
 Hadoop的核心组件剖析
 | 
| Hadoop的大数据体系架构 | Hadoop的起源 | 什么是大数据?专有云上的混搭平台设计
 OLTP系统和OLAP系统
 数据仓库的基本概念
 Google的基本思想
 | 
| Hadoop的体系结构和原理 | 海量数据的存储HDFS ·  文件上传的过程 ·  文件下载的过程 ·  原信息的合并过程 海量数据的计算MapReduce
 ·  YARN的工作原理 ·  MapReduce作业执行的过程和原理 HBase的基本架构
 | 
| Hadoop集群模式的安装和配置  | 单机模式的安装和配置伪分布模式的安装和配置
 免密码登录的原理
 配置Hadoop的集群环境
 配置和使用HUE
 | 
| Hadoop HA | 集群的规划安装Zookeeper集群环境
 安装配置hadoop集群
 验证HDFS的HA
 验证YARN
 | 
| Hadoop应用案例分析  | 案例一:互联网应用架构案例二:日志分析
 案例三:Hadoop在淘宝的应用
 | 
| 分布式文件系统HDFS | 访问HDFS  | 使用命令行访问HDFS文件系统使用Java编程接口访问HDFS文件系统
 | 
| HDFS的高级特性  | 什么是HDFS的联盟HDFS的回收站
 HDFS的配额
 HDFS的权限
 | 
| HDFS的底层原理  | 什么是RPC通信?什么是动态代理?
 | 
| HDFS的优化  | NameNode的优化策略SecondaryNameNode的优化策略
 文件存储的优化
 HDFS的瓶颈和解决方案
 | 
| HDFS的NameNode联盟  | 什么是NameNode的联盟NameNode的体系架构
 搭建NameNode的联盟架构
 | 
| 分布式计算模型MapReduce和Yan | MapReduce基础编程  | MapReduce的基本概念和原理数据在MapReduce的流动过程
 第一个MapReduce程序和运行MapReduce程序
 | 
| MapReduce高级编程  | 序列化的基本概念编写MapReduce序列化的程序
 MapReduce的排序
 MapReduce的分区
 什么是Combiner
 什么是Shuffle
 | 
| Yarn的优化  | Yarn的内存使用Yarn的资源调度策略
 MapReduce任务的优化
 | 
| 数据分析引擎 | 数据分析之Hive  | ·  什么是Hive和Hive的体系结构 ·  安装和配置Hive ·  使用HQL ·  Hive的客户端:CLI客户端和Java编程 ·  接口 Hive的自定义函数
 Hive的数据模型
 ·  内部表 ·  分区表 ·  桶表 ·  视图 ·  物化视图 | 
| 数据分析之Pig  | 什么是Pig和Pig的体系结构安装和配置Pig
 Pig的数据模型
 使用Pig Latin语句进行数据的分析
 Pig的自定义函数
 | 
| 数据交换引擎 | Sqoop和Flume  | 使用Sqoop进行数据的交换  ·  什么是Sqoop体系结构 ·  使用Sqoop进行数据的交换 使用Flume进行数据的采集
 ·  什么是Flume体系结构 ·  使用Flume进行数据的采集 | 
| 基于HDFS的存储系统 | HBase数据库  | HBase简介及其在Hadoop中的位置HBASE的伪分布的搭建
 HBASE的底层存储模型和基本概念
 HBASE的读写原理
 HBASE的高级特性
 HBase的体系结构
 HBASE Shell
 HBASE的批量导入
 HBASE的Java客户端
 | 
| 分布式协调服务 | Zookeeper  | 什么是Zookeeper?及其功能Zookeeper的体系结构和数据模型
 Zookeeper安装及测试
 Zookeeper的Java接口
 Watcher及内部事件
 Zookeeper的工作原理
 基于ZooKeeper的大数据的HA架构及其实现
 | 
| 基于Spark的大数据分析平台 | Scala编程语言  | Scala语言基础Scala语言的面向对象
 Scala语言的函数式编程
 Scala中的集合
 Scala语言的高级特性
 | 
| Spark Core核心  | 什么是Spark?Spark生态圈Spark的体系结构与安装部署
 执行Spark Demo程序
 Spark运行机制及原理分析
 Spark的算子
 Spark RDD的高级算子
 Spark基础编程案例
 | 
| Spark SQL数据分析引擎  | Spark SQL基础使用数据源
 性能优化
 在IDEA中开发Spark SQL程序
 | 
| Spark Streaming流式计算框架  | Structured Streaming基础Structured Streaming的程序模型
 Datasets 和 DataFrames API
 管理和监控流式查询
 | 
| 基于Hadoop和Spark大数据平台的机器学习 | Mahout和Spark MLlib  | 在机器学习中的使用,常用算法实战(Mahout和spark MLlib)  ·  Mahout与Spark MLLib ·  基于协同过滤算法 ·  基于ALS协同过滤算法 ·  基于Spark MLLib的逻辑回归算法 | 
| 下一代大数据处理引擎 | Flink  | Flink介绍 Flink的数据集
 Flink两种执行模型
 Flink-流计算模型-有界数据集处理
 Flink的DataSet API
 Flink的DataStream API
 广播变量、累加器和计数器
 状态管理和恢复
 Window和Time
 Flink Table & SQL
 |