Spark~~Spark源码

原创于 2022-07-21 01:29:23 发布 · 579 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #java

Spark 专栏收录该内容

7 篇文章

订阅专栏

本文详细解析了YARN集群环境下Spark应用的执行流程，包括环境准备（YARN-CLUSTER模式与client模式）、组件间的Socket通信、应用程序执行、Shuffle机制、内存管理等核心内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

1. 环境准备（Yarn 集群）
- YARN-CLUSTER模式
- Yarn-client模式
2.组件通信（Socket）
3. 应用程序的执行
4.Shuffle
5.内存的管理

1. 环境准备（Yarn 集群）

YARN-CLUSTER模式

Yarn-client模式

Driver，Executor

1.SparkSubmit中的main->doSubmit->parseArguments

注册AM，申请资源 ApplicationMaster->runDriver

返回资源可用列表 ApplicationMaster->runDriver
处理可分配的容器
ApplicationMaster->runDriver ->allocator.allocateResources() ->handleAllocatedContainers

运行已经分配的容器(使用线程池启动)
ApplicationMaster->runDriver->allocator.allocateResources()-> handleAllocatedContainers（）->runAllocatedContainers(containersToUse: ArrayBuffer[Container])
ApplicationMaster->runDriver->allocator.allocateResources()-> handleAllocatedContainers（）->runAllocatedContainers(containersToUse: ArrayBuffer[Container])

10.ApplicationMaster->runDriver->allocator.allocateResources()-> handleAllocatedContainers（）->runAllocatedContainers(containersToUse: ArrayBuffer[Container])->run()->startContainer->nmClient.startContainer(container.get, ctx)

nmClient.startContainer 中的ctx,需要设置准备的指令

prepareCommand() 方法内启动Executor bin/java
org.apache.spark.executor.YarnCoarseGrainedExecutorBackend->main->

YarnCoarseGrainedExecutorBackend->main->env.rpcEnv.setupEndpoint

抽象的->NettyRpcEnv实现类->setupEndpont-> dispatcher.registerRpcEndpoint(name, endpoint)

15.YarnCoarseGrainedExecutorBackend->main->onstart()

SparkContext->schedulerBackEnd 通信后台
SparkContext->schedulerBackEnd（trait）->CoarseGrainedSchedulerBackend实现类->receiveAndReply

YarnCoarseGrainedExecutorBackend->main->onstart()

2.组件通信（Socket）

rpcEnv->NettyRpcEnvFactory()

Netty 通信框架 AIO

BIO ：阻塞式IO

NIO：非阻塞式IO

AIO：异步非阻塞式IO

Linux对AIO支持不够好，Windows支持AIO Linux采用Epoll方式模仿AIO操作

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-71Nev2ai-1658337634786)(C:\Users\gcc\AppData\Roaming\Typora\typora-user-images\image-20211124003312012.png)]
创建Driver通信环境 SparkContext->createSparkEnv

SparkContext->createSparkEnv->create

SparkContext->createSparkEnv->create->RpcEnv.create->Utils.startServiceOnPort-> nettyEnv.startServer(config.bindAddress, actualPort)->

transportContext.createServer->new TransportServer->init(hostToBind, portToBind)->.channel(NettyUtils.getServerChannelClass(ioMode))->