Hive优化有哪些方法

发布于 2021-04-23 17:04:43
【多选题】
A 数据存储及压缩(hive中表的存储格式通常有orc和parquet,压缩格式一般使用snappy。相比与textfile格式表,orc占有更少的存储。因为hive底层使用MR计算架构,数据流是hdfs到磁盘再到hdfs,而且会有很多次,所以使用orc数据格式和snappy压缩策略可以降低IO读写,还能降低网络传输量,这样在一定程度上可以节省存储,还能提升hql任务执行效率)
B 通过调参优化(并行执行,调节parallel参数;调节jvm参数,重用jvm;设置map、reduce的参数;开启strict mode模式;关闭推测执行设置)
C 有效地减小数据集将大表拆分成子表;结合使用外部表和分区表。
D SQL优化(尽量减少数据集,可以通过分区表,避免扫描全表或者全字段、设置自动识别小表,将小表放入内存中去执行)

查看更多

关注者
0
被浏览
122
  • 体验AI问答!更聪明、超智能!
  • 一款基于GPT的超级AI助手,可以对话、创作、写文案!
1 个回答

撰写答案

请登录后再发布答案,点击登录

发布
问题

手机
浏览

扫码手机浏览

分享
好友

在线
客服