1884分钟
大数据离线生态圈系统:Hadoop详解
深入理解分布式存储、处理和分析的核心技术
深入理解分布式存储、处理和分析的核心技术
课程导读
1.分布式文件系统 HDFS
- 1.1.1 使用WebConsole操作HDFS
- 1.1.2 使用命令行操作HDFS
- 1.1.3 使用JavaAPI创建目录以及目录的权限问题
- 1.1.4 使用JavaAPI完成数据文件的上传和下载
- 1.1.5 使用JavaAPI操作HDFS
- 1.2.1 主节点NameNode的职责
- 1.2.2 从节点DataNode的职责和数据上传的过程
- 1.2.3 数据下载的过程
- 1.2.4 Secondary Name Node的职责
- 1.3.1 HDFS的高级特性之回收站
- 1.3.2 HDFS的高级特性之快照
- 1.3.3 HDFS的高级特性之配额管理
- 1.3.4 HDFS的高级特性之安全模式
- 1.3.5 HDFS的高级特性之权限管理
- 1.4.1 基于ViewFS实现HDFS的联盟
- 1.4.2 基于ViewFS部署HDFS联盟
- 1.4.3 基于RBF实现HDFS的联盟
- 1.4.4 基于RBF部署HDFS联盟
- 1.5HDFS 的底层通信方式 RPC
2.分布式计算模型MapReduce与Yarn
- 2.0课程简介
- 2.1.1 分析WordCount数据处理的过程
- 2.1.2 开发自己的WordCount程序
- 2.1.3 开发案例-求每个部门的工资总和
- 2.2.1 Yarn调度MapReduce任务的过程
- 2.2.2 Yarn的资源分配方式
- 2.3.1 序列化
- 2.3.2 基本数据类型的排序
- 2.3.3 对象的排序
- 2.3.4 分区的基本知识
- 2.4.1 MapReduce 编程案例
- 2.4.2 等值连接的多表查询数据处理的过程
- 2.4.3 使用MapReduce实现等值连接
- 2.4.4 自连接的多表查询数据处理的过程
- 2.4.5 使用MapReduce实现自连接操作
- 2.4.6 分析倒排索引的创建过程
- 2.4.7 使用MapReduce实现倒排索引
3.列式 NoSQL 数据库HBase
- 3.0课程简介
- 3.1.1 HBase 的基本概念与体系架构
- 3.1.2 HBase的体系架构
- 3.2.1 部署HBase
- 3.2.2 部署HBase的伪分布模式
- 3.2.3 部署HBase的全分布模式和HA模式.
- 3.3.1 使用不同方式操作HBase
- 3.3.2 使用JavaAPI操作HBase
- 3.3.3 HBase上的MapReduce
- 3.3.4 使用的HBase过滤器
- 3.4.1 HBase写入数据的机制
- 3.4.2 HBase读取数据的机制
- 3.4.3 HBase的其他运行机制
- 3.5.1 HBase 的高级特性
- 3.5.2 HBase的快照
- 3.5.3 HBase的BulkLoading
- 3.5.4 HBase的用户权限管理
- 3.5.5 HBase备份与恢复
- 3.5.6 HBase的主从复制
- 3.6.1 HBase 的监控
- 3.6.2 利用可视化工具监控HBase
- 3.7.1 HBase 的优化
- 3.7.2 HBase数据的生命周期
- 3.7.3 HBase资源的配额Quota
- 3.8.1 Phoenix简介和安装配置
- 3.8.2 在Phoenix中使用二级索引
- 3.8.3 在Phoenix中执行JDBC
4.数据分析引擎 Hive
- 4.0课程简介
- 4.1.1 Hive简介
- 4.1.2 Hive的体系架构
- 4.2.1 部署Hive的嵌入模式
- 4.2.2 部署HIve的远程模式
- 4.3.1 Hive的内部表
- 4.3.2 Hive的外部表
- 4.3.3 Hive的静态分区表
- 4.3.4 Hive的动态分区表
- 4.3.5 Hive的桶表
- 4.3.6 Hive的临时表
- 4.3.7 Hive的视图
- 4.4.1 Hive的字符函数
- 4.4.2 Hive的数值函数
- 4.4.3 Hive的日期函
- 4.4.4 Hive的条件函数
- 4.4.5 Hive的开窗函数
- 4.4.6 Hive的URL和JSON解析函数
- 4.5.1 开发Hive的用户自定义函数
- 4.5.2 开发Hive的用户自定义表生成函数
- 4.6Hive 的 JDBC 客户端
- 4.7.1 Presto简介与体系架构
- 4.7.2 安装部署Presto
- 4.7.3 Presto执行查询的过程
5.分布式协调服务ZooKeeper
- 5.0课程简介
- 5.1ZooKeeper 集群基础
- 5.2.1 部署ZooKeeper的Standalone模式
- 5.2.2 部署ZooKeeper的集群模式
- 5.3.1 ZooKeeper的节点类型
- 5.3.2 ZooKeeper的Watcher机制
- 5.3.3 ZooKeeper的分布式锁与秒杀的实现
- 5.4.1 基于ZooKeeper实现HDFS的HA架构
- 5.4.2 基于ZooKeeper部署Hadoop的HA环境
6.数据采集引擎Sqoop 与 Flume
- 6.0课程简介
- 6.1使用 Apache Sqoop 采集数据
- 6.2使用 Apache Flume 采集数据
课程总结
课后测试
赵渝强
曾任京东大学大数据学院院长
曾任Oracle中国有限公司高级技术顾问