Hive

# Hive

tag： 携程

count：1

as：

tag：

count：1

as：hive join 的几个方式，说明其原理

tag：

count：2

as：Hive Spark 优化掌握的怎么样？

Hive 的优化举例？

hive 的 sql 脚本优化

tag：

count：5

as：hive sql 转换为 mr 的过程

Hive 的计算过程

hivesql 底层执行过程和原理

Hive 介绍，原理？Hsql 转换到 MR 的过程？

hive 的逻辑架构

tag：

count：2

as：Hive 分区怎么存储？

tag：

count：1

as：

tag：

count：1

as：

TextFile：默认格式，按行存储，可以压缩但压缩文件不支持分片，反序列化开销是 SequenceFile 的几十倍 (需要判断分隔符和换行符)
ORC file：RC 的改良版，每个 Task 输出单文件、存储索引、支付复杂类型、支持块压缩、可以直接读取，ORC 比 RC 高效很多
Parquet：列式存储，是 spark 的默认存储格式，压缩和查询性能比 ORC 稍差，但是支持的编码更多，而且对嵌套式结构支持的更好 (json)。因此对结构化数仓来说 ORC file 格式更好，对灵活的 spark 作业来说 Parquet 格式更好。

上次更新: 2025/01/01, 10:09:39