56分钟
大数据前沿技术:基于CDC的数据捕获
在进行数据抽取时,你是否考虑过需要抽取哪部分数据加载到数据仓库? 是完全抽取还是变化数据捕获? 如果数据量很小,则采取完全源数据抽取;如果源数据量很大,则抽取变化的源数据,这种数据抽取模式叫做变化数据…
在进行数据抽取时,你是否考虑过需要抽取哪部分数据加载到数据仓库? 是完全抽取还是变化数据捕获? 如果数据量很小,则采取完全源数据抽取;如果源数据量很大,则抽取变化的源数据,这种数据抽取模式叫做变化数据捕获,简称CDC。 当你能够识别并获得最近发生变化的数据时,抽取及其后面的转换、装载操作显然都会变得更高效,因为要处理的数据量会小很多。 遗憾的是,很多源系统很难识别出最近变化的数据,或者必须侵入源系统才能做到。 变化数据捕获是数据抽取中典型的技术挑战。
因此掌握CDC在一定程度上提升了效率,具有较强的适用性。本课程的目的在于结合代码实现CDC,并在此基础上完成高质量的数据采集工作。
一、课程概述
二、CDC技术概述
- 1.概述
- 2.基于查询的CDC技术:Sqoop
- 3.基于binlog的CDC技术:Canal
三、CDC与大数据
四、课程总结
课后测试
赵渝强
曾任京东大学大数据学院院长
曾任Oracle中国有限公司高级技术顾问