大数据

hive调优是比较大的专题，需要结合实际的业务，数据的类型，分布，质量状况等来实际的考虑如何进行系统性的优化，hive底层是mapreduce，所以hadoop调优也是hive调优的一个基础,hvie调优可以分为几个模块进行考虑，数据的压缩与存储，sql的优化，hive参数的优化，解决数据的倾斜等。

发布于 2021-04-23 17:04:24

【多选题】
A 请慎重使用COUNT(DISTINCT col) 和select *
B 小文件会造成资源的多度占用以及影响查询效率
C 不要在表关联后面加WHERE条件
D 处理掉字段中带有空值的数据
E 设置并行执行任务数
F 设置合理的Reducer个数
G 选择使用严格模式

关注者

0

被浏览

211

yingying520 2023-04-23

越努力越幸运！

此回答被采纳为最佳答案，开通VIP会员可查看

1 个回答

撰写答案

请登录后再发布答案，点击登录

关于作者

突突死这帮狗奏

这家伙很懒，什么也没写！

提问

回答

647

被采纳

573

关注TA

发私信

相关问题

1

SparkJob运行慢的原因和解决（调优也可以以此为答案）

2

单扇屏蔽门无法打开，车站在故障门处需要张贴“（）”告示。（）

3

下面可以在spark调优中适当增加

4

hdfs小文件存储解决方案小文件是指文件size小于HDFS上block大小的文件。

5

单扇屏蔽门无法打开，车站在故障门处需要张贴“正在维修”告示。（）

6

单扇屏蔽门无法关闭，站台安全员首先需要考虑操作（）设备进行关门。

7

Flink时间语义的分析：有哪些时间语义，有哪些使用场景 flink时间语义有三种：

8

数据倾斜解决方案什么是数据倾斜? 数据倾斜无非就是大量的相同key被partition分配到一个分区里, 造成了'一个人累死,其他人闲死'的情况,这种情况是我们不能接受的, 这也违背了并行计算的初衷,首先一个节点要承受着巨大的压力, 而其他节点计算完毕后要一直等待这个忙碌的节点,也拖累了整体的计算时间, 可以说效率是十分低下的。

9

单扇屏蔽门无法关闭，站台安全员需要将LCB打至（）来关门。

10

Hive中分区表和分桶表的区别：

发布
问题

手机
浏览

扫码手机浏览

在线
客服