『字节青训营-4th-大数据』L4:流计算中的 Window 计算


概述
流式计算 VS 批式计算

资源模型:批式跑完资源就释放了,流式是必须一直都占用的
批处理

T+1:加 1 天

处理时间窗口

处理时间 VS 时间时间

事件事件窗口

有些数据会有延迟
Watermark

小结

(感觉有点没听懂😂)
Watermark
什么是 Watermark

如何产生 Watermark

如何传递 Watermark

每个算子根据上游输入的最小值
如何通过 Flink UI 观察 Watermark

典型问题一

典型问题二

部分的分区断流(故障、晚上业务少等)的问题
典型问题三

Window
Window 分类

Window 使用

滚动窗口

滑动窗口

会话窗口

迟到数据


增量 VS 全量计算

EMIT 触发

小结

优化机制
Mini-batch 优化


让算子攒一小批,然后再处理,避免高频读写
但是这样也会增加延迟,所以实际上会进行全局的协调
倾斜优化 local-global

Distinct 计算状态复用

(听得不是很懂,还是建议看原视频)

Pane 优化

在滑动窗口里,每一条数据可能属于多个窗口

小结

案例分析
(基于真实场景的抽象)
需求一



需求二



课程总结

评论
GiscusTwikoo