『字节青训营-4th-大数据』L7:Presto 架构原理与优化介绍
相关链接
🎶 学员手册:【大数据专场 学习资料三】第四届字节跳动青训营 - 掘金
概述
大数据与 OLAP 的演进


廉价机器:可以做到成本与性能的线性增长
存算分离:存储节点和计算节点可以不在一台物理机上



预计算:用空间换时间
Presto 设计思想


小结

Presto 架构原理与优化介绍
基础概念介绍
服务相关

- 黄色:数据源
- 绿色(深和浅):服务
- 蓝色:用户
数据源相关

Query 相关


数据传输相关


核心组件架构介绍

服务发现

通信协议




代表了我想要关闭(当前手上还有东西,设置为此状态时,不会再安排新 task ,设定一个超时时间,过后关闭)
小结

Presto 重要机制
多租户资源管理
Case 介绍

Resource Group



(这里在解读代码)
多租户下的任务调度
物理计划生成


Stage 调度



Task 调度



实际使用中 90% 都是第3种
Split 调度


内存计算

Pipeline 化数据处理

反压机制

多数据源联邦查询


小结

性能优化实战
常用性能分析工具




阿里巴巴开源的一个线上查询工具


万物皆可火焰图(

具体案例分析
Case 1


每一段上去都有一个 copy 方法
说白了就是这个函数有问题

Case 2


某些情况下,正则表达式的匹配是非常耗时的

字节内部优化实践
Multi Coordinator


History Server

Support Remote UDF

Raptor X 的多级缓存

小结

评论
GiscusTwikoo