『字节青训营-4th-大数据』L13:Parquet 与 ORC:高性能列式存储
相关链接
🎶 学员手册:【大数据专场 学习资料五】第四届字节跳动青训营 - 掘金






列存 vs 行存
数据格式层概述

分层视角下的数据形态

两种数据查询分析场景:OLTP vs OLAP

OLTP:行式存储格式

OLAP:列式存储格式

总结

Parquet 原理解释
Parquet 简介

Parquet in Action
DDL

Spark


Parquet vs Text Format

做了压缩,而且性能反而还会有提升

Dremel 数据模型


数据布局

编码 Encoding

列基数不大:去重后的数据不多

压缩 Compression


索引 Index


这东西在第一节课也出现了
排序 Ordering

过滤下推 Predicate PushDown

Spark 集成 - 向量化读

深入 Dremel 数据模型

老师说听不懂没关系,哈哈哈


小结

ORC 详解和对比
ORC 简介

数据模型


数据布局

ACID 特性简介

AliORC

索引增强

小列聚合

异步读取

思考

Parquet vs ORC

性能


选择

小结

列存演进
数仓中的列存

存储侧下推

Column Family 支持

总结

评论
GiscusTwikoo