博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark总结整理(八):Spark Core 性能优化思路、步骤总结
阅读量:4163 次
发布时间:2019-05-26

本文共 453 字,大约阅读时间需要 1 分钟。

总结前面性能优化相关文章,列出Spark开发性能优化的一般步骤

前述文章包括:

思路如下:

  1. 开发之前和开发过程中,参考 一文中的 10大原则,分析业务逻辑,提前定位可能的性能瓶颈
  2. 尽可能将资源相关的配置放在提交命令中,不要硬编码在代码中,根据具体业务和使用的spark版本, 参考 一文,确定任务所需资源
  3. 观察线上任务,如果 出现OOM 或者 SparkUI 上观察到发生数据倾斜,参考 一文进行方案调整
  4. 一般来说,通过前面3步,已可解决大部分问题,如需进一步针对 shuffle 进行优化,可参考 一文,进行特别配置

第3、4点属于事后优化,即线上任务出现问题后进行定位、解决,Spark Core 性能优化之内存模型 一文加深 对 Spark 内存的理解,以便更加从容的解决 spark 性能问题

个人觉得,相比于Flink任务,Spark需要开发任务对Spark内存等方面有更为深入的理解,方能应付线上出现的一系列问题,而Flink这方面则简便许多,尤其是在背压方面,Flink帮运维省去了大部分精力

在这里插入图片描述

转载地址:http://juxxi.baihongyu.com/

你可能感兴趣的文章
三维分析之视频投放
查看>>
SuperMap iDesktop之栅格值怎么查
查看>>
SuperMap iClient3D for WebGL教程-orientation
查看>>
SuperMap iClient3D for WebGL教程-description描述属性
查看>>
SuperMap iClient3D for WebGL教程-CallbackProperty
查看>>
如何修改leaflet聚合图的层级和样式
查看>>
三维分析之开敞度分析
查看>>
BIM+GIS应用的八大挑战
查看>>
.net实现.aspx页面自动加载.cs程序定义的变量并按照格式输出
查看>>
[Leetcode]Pow(x, n)-Python递归+快速幂
查看>>
[Leetcode]跳跃游戏
查看>>
[Leetcode]合并区间
查看>>
[Leetcode]最后一个单词的长度
查看>>
[Leetcode]螺旋矩阵II
查看>>
[Leetcode]旋转链表
查看>>
[Leetcode]不同路径-Python动态规划
查看>>
[Leetcode]加一
查看>>
merges sort use c++
查看>>
插入排序用递归实现
查看>>
TCP Retransmission
查看>>