spark报错:java.nio.channels.ClosedChannelException & Couldn't connect to leader 处理

上周修改并上线的一个Spark程序出现周期性报错及卡顿现象,错误信息显示为ClosedChannelException。通过关闭动态资源分配,即在提交命令中添加--confspark.dynamicAllocation.enabled=false参数,成功解决了问题。故障原因为部分机器网络配置不当,导致与Zookeeper集群通信失败。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

上周修改了一个程序,上线后每过一段时间就会报错,并且直接卡住,不会自动结束。

报错信息如下:

19-10-27 19:01:07 ERROR org.apache.spark.executor.Executor:91 - Exception in task 6.0 in stage 7.0 (TID 80)
java.nio.channels.ClosedChannelException
... ...
19-10-27 19:07:08 ERROR org.apache.spark.executor.Executor:91 - Exception in task 7.1 in stage 7.0 (TID 89)
org.apache.spark.SparkException: Couldn't connect to leader for topic pc_play_log 9: java.nio.channels.ClosedChannelException
... ...

解决方式:在提交spark程序的命令中添加 --conf spark.dynamicAllocation.enabled=false ,表示关闭动态资源分配。设置该参数之后,yarn只会给该spark应用分配提交命令中指定的资源。

经查证,报错是由于集群中有5台机器有两个网卡,其中有一个网卡和zookeper集群网络不通。之前提交任务虽然人为设置了资源分配参数,但是实际运行时仍然是动态分配资源,分配了大概七八个executor,并且分配到了这5台网卡有问题的机器上,所以报错。

之所以关闭动态资源分配能解决问题,是因为该程序提交时人为设置的executor数量是两个,那么运行时,该程序只会被分配两个executor,被分配到有问题的机器的概率非常小 ( 当然理论上还是有几率分配到那5台,导致报错 )。

这种解决方式虽然治标不治本,但是实际的确解决了问题。。。 ╮( ̄▽ ̄)╭

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值