546分钟
Spark从零开始:SparkCore
在当今数字化时代,大数据行业蓬勃发展,Spark以其高效的数据处理能力成为行业翘楚。然而,许多从业者面临数据处理效率低下、分析结果不准确等痛点。 为此,三节课特别邀请了经验丰富的赵渝强老师带来本次课程…
在当今数字化时代,大数据行业蓬勃发展,Spark以其高效的数据处理能力成为行业翘楚。然而,许多从业者面临数据处理效率低下、分析结果不准确等痛点。
为此,三节课特别邀请了经验丰富的赵渝强老师带来本次课程,旨在帮助学员快速掌握Spark核心技术,提升数据处理与分析能力。无论你是初学者还是希望深化技能的专业人士,这门课程都是你实现职场飞跃的必备之选。
第一章 什么是Spark?
- 第一节 课程概述
- 第二节 准备实验环境
- 第三节 什么是Spark
- 第四节 为什么学习Spark
- 第五节 Spark的特点
第二章 Spark的体系结构与安装配置
- 第一节 Spark的体系结构
- 第二节 安装和配置Spark的伪分布环境
- 第三节 配置spark的免密码登录
- 第四节 安装和配置Spark的全分布环境
- 第五节 基于文件方式实现Spark的HA
- 第六节 基于ZooKeeper方式实现Spark的HA
第三章 执行Spark Demo程序
- 第一节 执行SparkExample程序
- 第二节 使用SparkShell
- 第三节 开发Scala版本的WordCoun
- 第四节 开发Java版本的WordCount
第四章 Spark的运行机制及原理分析
- 第一节 WordCount的执行流程分析
- 第二节 Spark执行任务的流程
第五章 Spark的算子
- 第一节 RDD基础
- 第二节 Transformation算子
- 第三节 Action算子
- 第四节 RDD的缓存机制
- 第五节 RDD的检查点
- 第六节 RDD的依赖关系和Spark任务中的Stage
- 第七节 RDD基础练习
第六章 Spark RDD的高级算子
- 第一节 mapPartitionsWithIndex
- 第二节 aggregate
- 第三节 aggregateByKey
- 第四节 coalesce与repartition
第七章 Spark基础编程案例
- 第一节 计算网站的访问量
- 第二节 创建自己的分区规则
- 第三节 操作数据库
课程附件资料
测试
赵渝强
曾任京东大学大数据学院院长
曾任Oracle中国有限公司高级技术顾问