
Spark
文章平均质量分 97
本专栏聚焦大数据计算引擎 Apache Spark,内容涵盖核心架构原理、RDD/DataFrame/Dataset 编程模型、性能优化技巧、与 Hadoop、Flink 等系统的对比实践,适合有一定基础、希望深入理解 Spark 内部机制和实际应用的开发者阅读。
讲文明的喜羊羊拒绝pua
拥有8年Java后端与大数据平台开发经验,曾在大疆等知名公司主导核心平台建设,具备丰富的架构设计与落地能力。擅长调度系统、存算分离湖仓架构与组件容器化,推动多个系统实现高可用、易扩展。在技术上,深入掌握Java并发编程与JVM调优,熟悉Spark、Flink、Kafka等大数据组件,具备DS、Amoro、Celeborn等开源项目贡献经验,具备强实战力与技术深度。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark分布式内存计算框架-10 Spark Streaming 容错机制与 Kafka 集成实战:Checkpoint、容错策略及精准一次性处理
Spark Streaming的Checkpoint机制为流式处理程序提供了数据容错保障,主要包括元数据和实际数据存储。当使用stateful转换或需要Driver高可用时,必须启用Checkpoint,通过设置容错存储目录并调用getOrCreate方法实现恢复。此外,Spark Streaming可整合Spark SQL进行数据分析,并通过Executor和Driver的自动重启机制实现节点级容错。Checkpoint间隔需合理设置以平衡存储开销与恢复效率。原创 2022-11-15 09:20:33 · 657 阅读 · 1 评论 -
Spark分布式内存计算框架-09 Spark Streaming 入门与进阶:架构解析、数据源接入与核心算子详解
Spark Streaming是Spark核心API的扩展,用于构建高吞吐、容错的实时数据流处理程序。主要特点包括: 流批统一:将实时数据流切分为微小批次处理,批处理间隔可短至秒级 DStream抽象:基于RDD实现,表现为连续RDD序列,支持map/reduce/join等操作 丰富算子:提供Transformations(延迟操作)和Output Operations(触发执行) 多数据源支持:兼容Kafka、Flume、HDFS等数据源,处理结果可输出到原创 2022-11-06 20:12:45 · 888 阅读 · 0 评论 -
Spark分布式内存计算框架-08 Spark SQL 性能调优实战:动态资源管理与十大优化策略详解
Spark SQL的动态资源分配功能通过智能调整executor数量来优化资源利用率。在YARN模式下,executor会根据任务负载自动增减:空闲时会被释放(默认60秒超时),任务积压时触发新增(默认1秒延迟)。系统通过计算运行/待处理任务数、executor分配比率等参数来决定新增executor数量,并受到上下限约束(默认0到∞)。这种机制使Spark SQL能像Hive一样按需使用资源,避免了传统固定资源配置的浪费问题,特别适合多用户长服务场景。实际使用中还需考虑executor调整速率、持久化数据原创 2022-07-23 13:46:56 · 1290 阅读 · 0 评论 -
Spark分布式内存计算框架-07 深入剖析 Spark SQL 架构与调优:执行流程、Catalyst机制与性能优化
Spark SQL是Spark生态中重要的内存计算模块,其架构基于Catalyst优化器和Tungsten执行引擎,支持SQL和DSL语法。执行流程分为SQL解析(使用ANTLR4生成语法树)、逻辑计划分析(绑定元数据)、逻辑优化(应用规则优化)、物理计划生成(转换为可执行计划)和代码生成(编译为字节码)五个阶段。通过具体案例展示了SQL语句从解析到执行的全过程,体现了Spark SQL如何将高级查询转换为分布式计算任务。该框架通过分层优化显著提升了大数据处理的效率和易用性。原创 2022-07-22 08:29:49 · 1620 阅读 · 0 评论 -
Spark分布式内存计算框架-06 全面掌握 Spark SQL:从基础概念到数据源整合与自定义函数实战
Spark SQL摘要 Spark SQL是Apache Spark处理结构化数据的核心模块,具有四大特性: 易整合性:支持SQL查询与Spark程序混合使用,提供多语言API; 统一数据源访问:通过相同API连接各类数据源; Hive兼容:支持Hive语法、元数据服务和现有数仓; 标准数据库连接:支持JDBC/ODBC。 核心编程抽象DataFrame是带Schema的分布式数据集,相比RDD: 优势:引入堆外内存减少GC,Schema优化序列化性能; 劣势:失去编译时类型安全和面向对象风格。 通过案例演原创 2022-07-16 16:37:32 · 969 阅读 · 0 评论 -
Spark分布式内存计算框架-05 Spark 性能优化实战:HBase读写、序列化机制与数据倾斜全解析
本文介绍了Spark与HBase的集成方法,通过newAPIHadoopRDD实现数据读写。首先在HBase中创建测试表并插入示例数据,然后配置Spark环境依赖(包括HBase相关jar包)。核心代码展示了如何通过TableInputFormat读取HBase数据,并将结果集转换为RDD进行处理,同时演示了使用TableOutputFormat将处理后的数据写回HBase。文中还涉及行键获取、列族值转换等关键操作,为Spark与HBase集成提供了完整实现方案。原创 2022-07-14 08:20:10 · 1341 阅读 · 3 评论 -
Spark分布式内存计算框架-04 深入解析 Spark Shuffle 与内存管理:机制、调优与源码实战
Spark的Shuffle机制演进经历了从HashShuffleManager到SortShuffleManager的优化过程。早期HashShuffle会产生大量小文件,存在内存和网络瓶颈,后续通过File Consolidation机制优化后仍面临文件过多问题。SortShuffleManager通过排序和合并机制显著减少了文件数量,包含普通模式和bypass模式(适用于小规模非聚合场景)。当前Spark默认采用SortShuffleManager,有效解决了性能瓶颈,其实现涉及内存数据结构处理、磁盘溢原创 2022-07-13 08:58:06 · 623 阅读 · 0 评论 -
Spark分布式内存计算框架-03 Spark Core 实战精讲:从经典案例到RDD机制与DAG原理
本文介绍了Spark内存计算框架的3个实战案例:1) PV/UV统计,通过读取日志文件计算页面访问量和独立访客数;2) Top5热门URL统计,分析访问日志获取点击量最高的5个URL;3) MySQL数据分析,包含两个子任务:统计每个搜索关键词的职位数量并写入MySQL,以及找出每个关键词下薪资最高的工作信息。案例中展示了Spark RDD操作、分组聚合、数据过滤和JDBC连接等核心功能,代码采用Scala实现,涵盖从数据读取、处理到结果输出的完整流程。原创 2022-07-09 21:56:01 · 637 阅读 · 0 评论 -
Spark分布式内存计算框架-02 深入掌握 Spark RDD:特性解析与常用算子全览
Spark内存计算框架的核心组件RDD(弹性分布式数据集)具有五大特性:分区性、计算函数、依赖性、分区器(仅键值RDD)和本地计算性。RDD通过转换算子(如map、filter)和行动算子(如reduce、collect)实现分布式计算。其中转换算子具有惰性执行特性,而行动算子会触发实际计算。Spark通过RDD的分区机制实现并行计算,并通过血统关系支持容错机制。典型应用如词频统计展示了RDD从读取数据、转换到输出的完整处理流程。原创 2022-07-08 23:00:55 · 851 阅读 · 0 评论 -
Spark分布式内存计算框架-01 Spark入门全指南:架构、集群部署与开发实战
Spark是由加州大学伯克利分校AMP实验室开发的开源内存计算框架,具有快速、通用、易用和兼容性强四大特性。其核心模块Spark Core支持弹性分布式数据集(RDD),并提供了Spark SQL、Spark Streaming、MLlib和GraphX等组件,分别支持结构化数据处理、流计算、机器学习和图计算。Spark可在YARN、Mesos和Standalone等多种集群资源管理器上运行,计算速度比Hadoop MapReduce快100倍,主要得益于内存计算和多线程机制。Spark生态广泛应用于大数据原创 2022-07-05 09:30:51 · 750 阅读 · 0 评论