
Spark
文章平均质量分 93
北漂老男人
你的指尖有改变世界的力量:
【星球力量关注:架构界扫地僧|架构师俱乐部星球】
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark Streaming 主要环节梳理
Spark Streaming流式计算主要环节:初始化、采集、切批、调度、DStream算子、输出、容错、窗口、外部整合、监控。每个环节都有关键源码位置,掌握方法名、内部逻辑、流程、注释及口诀能极大提升理解效率。源码行级分析建议结合IDE断点/单步调试,配合官方注释和社区博客深入学习。如果你需要某个环节的详细源码逐行剖析和注释,可以指定环节或具体类/方法,我会为你详细补充!原创 2025-05-23 00:30:00 · 857 阅读 · 0 评论 -
Spark Streaming原理与应用
Spark Streaming通过微批机制实现准实时流处理。Standalone集群支持易部署,HA机制依赖Zookeeper+Checkpoint。与Kafka整合常用Direct流,Exactly-Once语义强。→→→→。记忆口诀帮助快速掌握关键环节。如需某一环节详细源码逐行剖析,可继续提问!原创 2025-05-23 00:00:00 · 1131 阅读 · 0 评论 -
Spark SQL 执行全流程(详细版)
词法语法AST,逻辑计划先落地;分析绑定归属明,优化规则效率提;物理计划映底层,执行生成RDD;结果收集用户查,Spark SQL全流程。原创 2025-05-22 00:30:00 · 1087 阅读 · 0 评论 -
Spark SQL 原理与开发
SQL执行链口诀“语法树-逻辑化,优化后-物理跑,底层RDD并行搞。DataFrame与Dataset口诀“DF灵活,DS安全,转化计划LogicalPlan。Hive集成口诀“配置依赖启支持,Hive数仓轻松起。SQL解析口诀“Lexer分词,Parser语法,AST转计划。计划转换口诀“AST到逻辑,Planner物理,执行全靠QueryExecution。计划执行全流程口诀“逻辑计划先生成,优化规则再套用,物理计划来落地,RDD执行最底层。原创 2025-05-22 00:00:00 · 607 阅读 · 0 评论 -
Spark Core深度解析【大模型版本】
下面以的几个关键环节为例,进一步深入到更底层的源码行级剖析。每个环节给出调用栈、主要源码方法、关键逻辑片段,并配详细注释。内容较多,下面分模块详解。原创 2025-05-22 00:30:00 · 680 阅读 · 0 评论 -
Spark Core 源码关键环节的深度解析
以下是对 Spark Core 源码关键环节的深度解析,包括核心组件启动与调度机制、Shuffle与调度系统、RDD高级机制。每个环节都细化到具体方法、逻辑、源码片段,附有流程图思路与速记口诀,便于记忆和理解。原创 2025-05-22 00:00:00 · 917 阅读 · 0 评论 -
大模型指令训练【如此美妙】
reduceByKey调用栈类与属性关系shuffle过程:map端分桶写本地,reduce端拉取分桶聚合聚合算子物理执行:分区内聚合→shuffle→分区间聚合口诀:帮助快速理解原理与流程,便于面试与实战答题如需shuffle写入/读取更底层细节(如磁盘文件结构、网络拉取协议)、DAGScheduler/TaskScheduler的调度源码、不同shuffle manager对比(如SortShuffleManager vs HashShuffleManager),可继续指定,我将持续深入剖析!原创 2025-05-21 01:00:00 · 648 阅读 · 0 评论 -
Spark Core与Hadoop生态复习
Spark Core作用:内核,提供RDD、任务调度、内存管理、容错机制等。核心特性弹性分布式数据集(RDD)延迟计算(Lazy Evaluation)容错机制(DAG、血缘关系)内存计算口诀:RDD弹性,懒加载,血缘容错,快如闪电。Driver:作业提交、任务调度Executor:具体计算、内存缓存:资源分配Worker(Standalone模式):运行Executor进程口诀:Driver调度,Executor计算,Manager分配。Spark核心。原创 2025-05-21 00:30:00 · 1040 阅读 · 0 评论 -
WordCount源码分析与HadoopRDD源码剖析
HadoopRDD是Spark与Hadoop数据对接的桥梁,底层通过Hadoop的InputFormat读取HDFS、HBase等数据源。原创 2025-05-21 00:15:00 · 1592 阅读 · 0 评论 -
Spark Core基础与源码剖析全景手册
Spark Core作用Spark Core是Spark的内核,负责RDD(弹性分布式数据集)管理、任务调度、内存管理和容错机制等,是所有Spark组件的基础。核心特性RDD(弹性分布式数据集):核心数据抽象,支持分布式、不可变、容错。懒加载(Lazy Evaluation):转换操作不会立即执行,触发Action时才真正计算。容错机制:DAG血缘追踪,自动重算丢失分区。内存计算:极大提升大数据处理速度。口诀:RDD弹性,懒加载,血缘容错,快如闪电。原创 2025-05-21 00:00:00 · 910 阅读 · 0 评论 -
Scala与Spark:原理、实践与技术全景详解
本文系统梳理了 Scala 语言的基础与进阶特性,深入剖析了 Spark 的原理与架构,并结合实际案例与生态选型,为大数据开发者提供了理论与实践的全景参考。Scala 的表达力和 Spark 的高效分布式能力相结合,极大推动了现代数据处理平台的技术进步。原创 2025-05-20 00:00:00 · 1704 阅读 · 0 评论