Skip to content

chuangehh/hudi_demo

Repository files navigation

hudi一键入湖V1.0

日志

2021-03-05
近期挺多人关注我这项目的,一年前写的临时方案
在公司内部我们已经把它完善,支撑着近300张表T+1增量入湖,还有少量表的近实时入湖

接下来我会提炼出通用的代码到这个项目,让这个demo具备执行能力
同时我也会分享hudi实施过程中我们踩过的一些坑
欢迎你的加入

1.全量同步

  • 1.1 数据库 -> spark -> hudi
    • 1.1.1 数据库 -> spark
    • 1.1.2 注册临时表,注册schema
    • 1.1.3 计算同步字段(updatetime,修改时间) max值,开个新库
    • 1.1.4 spark -> hudi

2.增量采集

  • 1.1 注册kafka topic
  • 1.2 配置streamsets,并启动
    • 1.2.1 配置公共值
    • 1.2.2 JDBC
    • 1.2.3 Field Type
    • 1.2.4 Kafka
  • 1.3 调用定时任务默认1小时一次 kafka_to_hudi.sh

About

一键建湖,增量入湖方案

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •