56分钟

大数据前沿技术:基于CDC的数据捕获

大数据前沿技术:基于CDC的数据捕获

在进行数据抽取时,你是否考虑过需要抽取哪部分数据加载到数据仓库? 是完全抽取还是变化数据捕获? 如果数据量很小,则采取完全源数据抽取;如果源数据量很大,则抽取变化的源数据,这种数据抽取模式叫做变化数据…

课程分类
数字技术 | 数据治理
适用人群
工程师, 专家
课程标签
大数据,CDC,数据捕获
在进行数据抽取时,你是否考虑过需要抽取哪部分数据加载到数据仓库? 是完全抽取还是变化数据捕获? 如果数据量很小,则采取完全源数据抽取;如果源数据量很大,则抽取变化的源数据,这种数据抽取模式叫做变化数据捕获,简称CDC。 当你能够识别并获得最近发生变化的数据时,抽取及其后面的转换、装载操作显然都会变得更高效,因为要处理的数据量会小很多。 遗憾的是,很多源系统很难识别出最近变化的数据,或者必须侵入源系统才能做到。 变化数据捕获是数据抽取中典型的技术挑战。 因此掌握CDC在一定程度上提升了效率,具有较强的适用性。本课程的目的在于结合代码实现CDC,并在此基础上完成高质量的数据采集工作。
一、课程概述 二、CDC技术概述 - 1.概述 - 2.基于查询的CDC技术:Sqoop - 3.基于binlog的CDC技术:Canal 三、CDC与大数据 四、课程总结 课后测试
赵渝强

赵渝强

曾任京东大学大数据学院院长 曾任Oracle中国有限公司高级技术顾问