
spark源代码分析
文章平均质量分 69
Read The Fucking Source Code
苍老流年
对未来的不确定与焦虑保持独立的判断与认知
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
1. Spark源代码阅读与调试环境搭建
1.修改maven默认仓库地址,选择阿里云仓库可以加速依赖包的下载速度,阿里云仓库地址为http://maven.aliyun.com/nexus/content/groups/public。注意:intellij idea依赖的scala sdk的版本一定要与spark 源代码包中依赖的scala版本一致,否则后面可能报错。intellj idea具有强大的代码编辑,阅读与调试功能,这里选择它作为代码阅读与调试工具。执行上述命令,会在dist目录中生成发布软件包,与在spark官网下载的软件包是一样的。原创 2020-03-20 10:42:36 · 325 阅读 · 0 评论 -
2. Spark RPC使用
【代码】2. Spark RPC使用。原创 2020-04-13 22:32:24 · 238 阅读 · 0 评论 -
3. Spark yarn cluster模式Application提交流程源代码分析
yarn cluster模式Application提交流程如下图所示。Client 向ResourceManager申请启动ApplicationMaster。ResourceManager随机分配一个Container启动ApplicationMaster。ApplicationMaster向ResourceManager申请资源用于启动Executor。ResourceManager向ApplicationMaster返回用于启动Executor的资源。原创 2020-04-29 11:35:02 · 769 阅读 · 0 评论 -
4. SparkContext 初始化源代码分析
创建TaskScheduler时会根据masterUrl模式匹配,Yarn Cluster模式ClusterManager实际是YarnClusterManager。SparkContext 是通往Spark 集群的唯一入口,可以用来在 Spark 集群中创建 RDD,累加。器和广播变量,并对RDD执行各种算子,SparkContext的核心作用是初始化Spark程序运行需要组件。创建TaskScheduler位于SparkContext主构造方法中。原创 2020-06-26 17:08:06 · 297 阅读 · 0 评论 -
5. Spark job提交流程源代码分析
本文主要分析了job提交的流程,主要包括stage划分与Task提交的流程。原创 2020-06-28 22:45:18 · 306 阅读 · 0 评论 -
6. Spark BlockManager源代码分析
BlockManager是spark实现的存储系统,RDD-Cache、 Shuffle-output、broadcast 等都是基于BlockManager来实现的。BlockManager对外提供数据接口,可以将数据存储在多种介质上,如memory,disk,Alluxio等。原创 2020-07-22 23:59:44 · 958 阅读 · 0 评论 -
7. Spark Cache源代码分析
spark Cache源代码原创 2020-07-24 22:01:06 · 365 阅读 · 1 评论 -
8. Spark Broadcast源代码分析
Broadcast(广播变量)是只读变量,它会将数据缓存在每个节点上,而不是每个Task去获取它的复制副本。这样可以降低计算过程中的网络开销。broadcast的基本使用包括创建和读取。创建读取。原创 2020-07-24 23:14:57 · 319 阅读 · 0 评论 -
spark streaming运行原理源代码分析
运行流程streamingcontext启动start方法def start(): Unit = synchronized { state match { case INITIALIZED => startSite.set(DStream.getCreationSite()) StreamingContext.ACTIVATION_LOCK.synchronized { StreamingContext.assertNoOt原创 2020-07-30 10:56:02 · 302 阅读 · 0 评论 -
Spark SQL Join实现原理
参考https://www.cnblogs.com/duodushuduokanbao/p/9911256.html转载 2020-08-27 23:34:19 · 951 阅读 · 2 评论