282分钟
Spark从零开始:SparkSQL
在大数据领域,数据查询和分析是核心任务之一。然而,面对海量的数据,传统的数据库查询技术往往显得力不从心。SparkSQL以其高效、灵活的数据处理能力,成为了大数据查询领域的佼佼者。 为此,三节课特别邀…
在大数据领域,数据查询和分析是核心任务之一。然而,面对海量的数据,传统的数据库查询技术往往显得力不从心。SparkSQL以其高效、灵活的数据处理能力,成为了大数据查询领域的佼佼者。
为此,三节课特别邀请了经验丰富的赵渝强老师带来本次课程。
本课程将带您从零开始学习SparkSQL,掌握其基本原理和实战应用,让您轻松驾驭大数据查询,提升工作效率。
第一章 Spark SQL的基础知识
- 第一节 课程概述
- 第二节 SparkSQL简介
- 第三节 基本概念
- 第四节 创建DataFrame
- 第五节 操作DataFrame
- 第六节 全局临时视图
- 第七节 创建DataSet
- 第八节 DataSet操作案例
第二章 使用数据源
- 第一节 通用的load-save函数
- 第二节 Parquet文件
- 第三节 JSON数据
- 第四节 使用JDBC
- 第五节 使用Hive
第三章 Spark SQL的性能优化
- 第一节 在内存中缓存数据
- 第二节 性能优化的相关参数
第四章 开发Spark SQL程序
- 第一节 指定Schema的格式
- 第二节 将数据保存到数据库
- 第三节 使用caseclass
测试
赵渝强
曾任京东大学大数据学院院长
曾任Oracle中国有限公司高级技术顾问