1884分钟

大数据离线生态圈系统：Hadoop详解

深入理解分布式存储、处理和分析的核心技术

登录查看更多信息

课程分类: 数字技术 | 数据架构
适用人群: 工程师, 研究员
课程标签: Hadoop,大数据,分布式系统

深入理解分布式存储、处理和分析的核心技术

课程导读 1.分布式文件系统 HDFS - 1.1.1 使用WebConsole操作HDFS - 1.1.2 使用命令行操作HDFS - 1.1.3 使用JavaAPI创建目录以及目录的权限问题 - 1.1.4 使用JavaAPI完成数据文件的上传和下载 - 1.1.5 使用JavaAPI操作HDFS - 1.2.1 主节点NameNode的职责 - 1.2.2 从节点DataNode的职责和数据上传的过程 - 1.2.3 数据下载的过程 - 1.2.4 Secondary Name Node的职责 - 1.3.1 HDFS的高级特性之回收站 - 1.3.2 HDFS的高级特性之快照 - 1.3.3 HDFS的高级特性之配额管理 - 1.3.4 HDFS的高级特性之安全模式 - 1.3.5 HDFS的高级特性之权限管理 - 1.4.1 基于ViewFS实现HDFS的联盟 - 1.4.2 基于ViewFS部署HDFS联盟 - 1.4.3 基于RBF实现HDFS的联盟 - 1.4.4 基于RBF部署HDFS联盟 - 1.5HDFS 的底层通信方式 RPC 2.分布式计算模型MapReduce与Yarn - 2.0课程简介 - 2.1.1 分析WordCount数据处理的过程 - 2.1.2 开发自己的WordCount程序 - 2.1.3 开发案例-求每个部门的工资总和 - 2.2.1 Yarn调度MapReduce任务的过程 - 2.2.2 Yarn的资源分配方式 - 2.3.1 序列化 - 2.3.2 基本数据类型的排序 - 2.3.3 对象的排序 - 2.3.4 分区的基本知识 - 2.4.1 MapReduce 编程案例 - 2.4.2 等值连接的多表查询数据处理的过程 - 2.4.3 使用MapReduce实现等值连接 - 2.4.4 自连接的多表查询数据处理的过程 - 2.4.5 使用MapReduce实现自连接操作 - 2.4.6 分析倒排索引的创建过程 - 2.4.7 使用MapReduce实现倒排索引 3.列式 NoSQL 数据库HBase - 3.0课程简介 - 3.1.1 HBase 的基本概念与体系架构 - 3.1.2 HBase的体系架构 - 3.2.1 部署HBase - 3.2.2 部署HBase的伪分布模式 - 3.2.3 部署HBase的全分布模式和HA模式. - 3.3.1 使用不同方式操作HBase - 3.3.2 使用JavaAPI操作HBase - 3.3.3 HBase上的MapReduce - 3.3.4 使用的HBase过滤器 - 3.4.1 HBase写入数据的机制 - 3.4.2 HBase读取数据的机制 - 3.4.3 HBase的其他运行机制 - 3.5.1 HBase 的高级特性 - 3.5.2 HBase的快照 - 3.5.3 HBase的BulkLoading - 3.5.4 HBase的用户权限管理 - 3.5.5 HBase备份与恢复 - 3.5.6 HBase的主从复制 - 3.6.1 HBase 的监控 - 3.6.2 利用可视化工具监控HBase - 3.7.1 HBase 的优化 - 3.7.2 HBase数据的生命周期 - 3.7.3 HBase资源的配额Quota - 3.8.1 Phoenix简介和安装配置 - 3.8.2 在Phoenix中使用二级索引 - 3.8.3 在Phoenix中执行JDBC 4.数据分析引擎 Hive - 4.0课程简介 - 4.1.1 Hive简介 - 4.1.2 Hive的体系架构 - 4.2.1 部署Hive的嵌入模式 - 4.2.2 部署HIve的远程模式 - 4.3.1 Hive的内部表 - 4.3.2 Hive的外部表 - 4.3.3 Hive的静态分区表 - 4.3.4 Hive的动态分区表 - 4.3.5 Hive的桶表 - 4.3.6 Hive的临时表 - 4.3.7 Hive的视图 - 4.4.1 Hive的字符函数 - 4.4.2 Hive的数值函数 - 4.4.3 Hive的日期函 - 4.4.4 Hive的条件函数 - 4.4.5 Hive的开窗函数 - 4.4.6 Hive的URL和JSON解析函数 - 4.5.1 开发Hive的用户自定义函数 - 4.5.2 开发Hive的用户自定义表生成函数 - 4.6Hive 的 JDBC 客户端 - 4.7.1 Presto简介与体系架构 - 4.7.2 安装部署Presto - 4.7.3 Presto执行查询的过程 5.分布式协调服务ZooKeeper - 5.0课程简介 - 5.1ZooKeeper 集群基础 - 5.2.1 部署ZooKeeper的Standalone模式 - 5.2.2 部署ZooKeeper的集群模式 - 5.3.1 ZooKeeper的节点类型 - 5.3.2 ZooKeeper的Watcher机制 - 5.3.3 ZooKeeper的分布式锁与秒杀的实现 - 5.4.1 基于ZooKeeper实现HDFS的HA架构 - 5.4.2 基于ZooKeeper部署Hadoop的HA环境 6.数据采集引擎Sqoop 与 Flume - 6.0课程简介 - 6.1使用 Apache Sqoop 采集数据 - 6.2使用 Apache Flume 采集数据课程总结课后测试

赵渝强

曾任京东大学大数据学院院长曾任Oracle中国有限公司高级技术顾问