Flink大数据量调优思路总结(二)

本文详细总结了Flink大数据量处理的调优思路,包括JVM内存、Flink内存、Netty、Akka、并行度、对象重用、Checkpoint、网络内存、限制条件等多方面的优化策略,旨在提升Flink作业的性能和稳定性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

一、JVM内存参数调优

二、Flink内存调优

flink进程内存

 jobmanager相关配置

三、netty优化

Netty Shuffle环境

Network Communication (via Netty)

四、Akka优化

五、并行度优化

taskmanger 个数

算子层面并行度设置

执行环境层次

客户端层次

六、对象重用

七、CheckPoint优化

监控checkpoint 

设置原则

配置 task 本地恢复

八、网络内存调优

九、限制

多个输入和合并 

缓冲区的尺寸和个数 

高并行度

十、网络缓冲生命周期 

输入网络缓冲 

输出网络缓冲 

透支缓冲区(Overdraft buffers) 

十一、缓冲区的数量 

选择缓冲区的大小 

选择缓冲区的数量 

十二、flink状态优化

Tuning MemTable

Tuning Block/Block Cache

Tuning Compaction

Generic Parameters

十三、背压优化

 反压监控指标

web ui观测

Job Overview观测反压状态​编辑

常见解决方式

十四、缓冲区 Debloating

十五、非对齐checkpoint

十六、限制 

与 Watermark 的相互影响 

与长时间运行的记录处理相互作用

某些数据分布模式没有检查点

 点对点连接

广播 Connections


一、JVM内存参数调优

Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。

监控节点进程的YARN的Container GC日志,如果频繁出现Full GC,需要优化GC。

GC的配置:在客户端的"conf/flink-conf.yaml"配置文件中,在“env.java.opts”配置项中添加参数:-Xloggc:<LOG_DIR>/gc.log

-XX:+PrintGCDetails -XX:-OmitStackTraceInFastThrow -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -XX:+UseGCLogFileRotation -XX:NumberOfG
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据与算法架构提升之路

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值