大数据

下面可以在spark调优中适当增加

发布于 2021-04-23 17:04:22

【多选题】
A shuffle/partition主要调优参数 spark.conf.set(“spark.sql.shuffle.partitions”, “40”)
B 生产环境集群环境部署优化，Redis/MemCache集群和Spark集群进行物理分离，避免内存峰值“碰撞”，Spark与HDFS集群的磁盘阵列保证较高的网络带宽，热数据处理部分硬盘使用SSD
C 避免没必要的RDD cache和persist disks，减少大量数据序列化，若使用了cache或persist注意在适当时机释放资源
D 有条件时选择使用Spark源生Parquet数据源格式，获得较高的处理性能
E 慎重或减少使用byKey类的算子，据经验判断，通常60%的性能问题都在shuffle阶段，较高的shuffle可能直接导致OutOfMemory
F 有些场景可巧妙地设计RDD，通常可使用reduceByKey替代groupByKey，reduceByKey可减少shuffle
G Spark两个调优级别：Application Code级别和资源配置级别

关注者

0

被浏览

175

1234567 2023-04-23

这家伙很懒，什么也没写！

此回答被采纳为最佳答案，开通VIP会员可查看

1 个回答

撰写答案

请登录后再发布答案，点击登录

关于作者

xiaozhu

这家伙很懒，什么也没写！

提问

回答

621

被采纳

620

关注TA

发私信

相关问题

1

图表无法显示

2

FAS主机烟感报警时应向（）上报

3

根据阶段五可视化图表写分析报告

4

SparkJob运行慢的原因和解决（调优也可以以此为答案）

5

单扇屏蔽门无法打开，车站在故障门处需要张贴“（）”告示。（）

6

hdfs小文件存储解决方案小文件是指文件size小于HDFS上block大小的文件。

7

单扇屏蔽门无法打开，车站在故障门处需要张贴“正在维修”告示。（）

8

hive调优是比较大的专题，需要结合实际的业务，数据的类型，分布，质量状况等来实际的考虑如何进行系统性的优化，hive底层是mapreduce，所以hadoop调优也是hive调优的一个基础,hvie调优可以分为几个模块进行考虑，数据的压缩与存储，sql的优化，hive参数的优化，解决数据的倾斜等。

9

单扇屏蔽门无法关闭，站台安全员首先需要考虑操作（）设备进行关门。

10

Flink时间语义的分析：有哪些时间语义，有哪些使用场景 flink时间语义有三种：

发布
问题

手机
浏览

扫码手机浏览

在线
客服