『字节青训营-4th-大数据』L11:数据湖三剑客:Delta Lake、Hudi 与 Iceberg 详解
相关链接
🎶 学员手册:【大数据专场 学习资料四】第四届字节跳动青训营 - 掘金


发展历史
数据湖发展阶段1 - Hadoop


数据湖发展阶段2 - Hive


数据湖发展阶段3 - 湖仓一体

存储计算不分离、结构化数据


业界三大数据湖



关于“数据湖”

核心技术
文件结构


Time travel



Transaction



原子性

事务隔离

Schema Evolution




各有所长
Iceberg

Well-designed Metadata Layer

s1 比 s0 多的就是最右边的一个 manifest file,而对应的就是最右边的 data files
Data File Filter

Hidden Partition

Hudi

Timeline Service & Upsert & Incremental

这里建议看原视频,讲的还是很清楚的
Copy On Write

更新的时候把所有列读到内存,改完再塞回去
Merge On Read

更新的时候把变动放到旁边,然后读的时候再合并
Delta Lake

流批一体

总结场景
三个数据湖的异同

三个数据湖的热度

技术选型

字节场景举例



课程总结

评论
GiscusTwikoo