Spark分布式内存计算框架-05 Spark 性能优化实战：HBase读写、序列化机制与数据倾斜全解析

讲文明的喜羊羊拒绝pua

已于 2025-06-17 11:28:14 修改

阅读量1.3k

点赞数 5

CC 4.0 BY-SA版权

分类专栏： Spark 文章标签：大数据 spark HBase 序列化与反序列化数据倾斜

于 2022-07-14 08:20:10 首次发布

本文链接：https://blog.csdn.net/yangwei234/article/details/125756152

本文探讨了如何使用Spark Core与HBase进行数据交互，介绍了通过newAPIHadoopRDD和SparkOnHBase两种方式实现。重点讲解了Spark的序列化与反序列化在transformation操作中的必要性，以及如何解决序列化异常。深入剖析了数据倾斜的原理、现象和解决方案，包括预处理数据、过滤关键key、调整shuffle并行度、两阶段聚合、mapjoin等策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark内存计算框架

Spark Core

Spark读写HBase

我们可以通过 Spark 整合 HBase，实现通过 Spark 来读取 HBase 的数据。
数据准备：创建 HBase 表，并插入数据：

create 'spark_hbase','info'
put 'spark_hbase','0001','info:name','tangseng'
put 'spark_hbase','0001','info:age','30'
put 'spark_hbase','0001','info:sex','0'
put 'spark_hbase','0001','info:addr','beijing'
put 'spark_hbase','0002','info:name','sunwukong'
put 'spark_hbase','0002','info:age','508'
put 'spark_hbase','0002','info:sex','0'
put 'spark_hbase','0002','info:addr','shanghai'
put 'spark_hbase','0003','info:name','zhubajie'
put 'spark_hbase','0003','info:age','715'
put 'spark_hbase','0003','info:sex','0'
put 'spark_hbase','0003','info:addr','shenzhen'
put 'spark_hbase','0004','info:name','bailongma'
put 'spark_hbase','0004','info:age','1256'
put 'spark_hbase','0004','info:sex','0'
put 'spark_hbase','0004','info:addr','donghai'
put 'spark_hbase','0005','info:name','shaheshang'
put 'spark_hbase','0005','info:age','1008'
put 'spark_hbase','0005','info:sex','0'
put 'spark_hbase','0005','info:addr','tiangong'

在这里插入图片描述

创建输出 HBase 数据

create 'spark_hbase_out','info'

1. 通过newAPIHadoopRDD实现

添加 pom.xml 依赖

<repositories>
  <!-- spark on hbase是cloudera提供的，所以这个地方添加了cdh仓库地址 -->
  <repository>
    <id>cloudera</id>
    <!--      <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>-->
    <url>https://mvnrepository.com/artifact/org.apache.hbase/hbase-spark</url>
  </repository>
</repositories>

<dependency>
  <groupId>org.apache.spark</groupId>
  <artifactId>spark-core_2.11</artifactId>
  <version>2.3.3</version>
</dependency>

<!-- hadoop-core 2009、7月更名为hadoop-common -->
<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-common</artifactId>
<!--      <version>2.6.0-mr1-cdh5.14.2</version>-->
  <version>3.1.4</version>
</dependency>
<dependency>
  <groupId>org.apache.hbase</groupId>
  <artifactId>hbase-server</artifactId>
<!--      <version>1.2.0-cdh5.14.2</version>-->
  <version>2.2.6</version>
</dependency>
<!--    <dependency>-->
<!--      <groupId>org.apache.hbase</groupId>-->
<!--      <artifactId>hbase-common</artifactId>-->
<!--      <version>1.2.0-cdh5.14.2</version>-->
<!--&lt;!&ndash;      <version>2.2.6</version>&ndash;&gt;-->
<!--    </dependency>-->
<dependency>
  <groupId>org.apache.hbase</groupId>
  <artifactId>hbase-client</artifactId>
<!--      <version>1.2.0-cdh5.14.2</version>-->
  <version>2.2.6</version>
</dependency>
<!-- 添加此依赖，解决spark hbase集成，低版本时报Base64找不到的问题 -->
<dependency>
  <groupId>org.apache.hbase</groupId>
  <artifactId>hbase-mapreduce</artifactId>
  <version>2.2.6</version>
</dependency>
<!-- 为了让它与apache hbase 2.2.2兼容，使用cdh6.2版本的；具体dependency可以去https://mvnrepository.com/查找 -->
<dependency>
  <groupId>org.apache.hbase</groupId