spark报错：java.nio.channels.ClosedChannelException & Couldn't connect to leader 处理_在集群中运行pyspark中closedchannelexception解决方案-CSDN博客

本文链接：https://blog.csdn.net/qq_38646027/article/details/102786613

上周修改并上线的一个Spark程序出现周期性报错及卡顿现象，错误信息显示为ClosedChannelException。通过关闭动态资源分配，即在提交命令中添加--confspark.dynamicAllocation.enabled=false参数，成功解决了问题。故障原因为部分机器网络配置不当，导致与Zookeeper集群通信失败。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

上周修改了一个程序，上线后每过一段时间就会报错，并且直接卡住，不会自动结束。

报错信息如下：

19-10-27 19:01:07 ERROR org.apache.spark.executor.Executor:91 - Exception in task 6.0 in stage 7.0 (TID 80)
java.nio.channels.ClosedChannelException
... ...
19-10-27 19:07:08 ERROR org.apache.spark.executor.Executor:91 - Exception in task 7.1 in stage 7.0 (TID 89)
org.apache.spark.SparkException: Couldn't connect to leader for topic pc_play_log 9: java.nio.channels.ClosedChannelException
... ...

解决方式：在提交spark程序的命令中添加 --conf spark.dynamicAllocation.enabled=false ，表示关闭动态资源分配。设置该参数之后，yarn只会给该spark应用分配提交命令中指定的资源。

经查证，报错是由于集群中有5台机器有两个网卡，其中有一个网卡和zookeper集群网络不通。之前提交任务虽然人为设置了资源分配参数，但是实际运行时仍然是动态分配资源，分配了大概七八个executor，并且分配到了这5台网卡有问题的机器上，所以报错。

之所以关闭动态资源分配能解决问题，是因为该程序提交时人为设置的executor数量是两个，那么运行时，该程序只会被分配两个executor，被分配到有问题的机器的概率非常小 ( 当然理论上还是有几率分配到那5台，导致报错 )。

这种解决方式虽然治标不治本，但是实际的确解决了问题。。。 ╮(￣▽￣)╭