spark的分区详解

liuhanyuu

已于 2023-04-21 21:43:11 修改

阅读量1.5k

点赞数

CC 4.0 BY-SA版权

文章标签：大数据 spark hadoop

于 2023-04-21 21:37:17 首次发布

本文链接：https://blog.csdn.net/m0_37967990/article/details/130297450

文章详细阐述了Spark中的partition与HDFS中block的关系，block作为存储的最小单元，而partition是计算的最小单元。Spark默认按HDFS的block数进行分区，HashPartitioner可能导致数据倾斜，RangePartitioner则保证数据更均匀分布。同时，介绍了如何根据应用需求自定义分区策略，并讨论了合理设置分区数对性能的影响，指出应基于总核数的2~3倍来设定分区数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、spark中partition与HDFS中block的关系

hdfs中的block是分布式存储的最小单元，类似于盛放文件的盒子，一个文件可能要占多个盒子，但一个盒子里的内容只可能来自同一份文件。假设block设置为128M，你的文件是250M，那么这份文件占3个block（128+128+2）。这样的设计虽然会有一部分磁盘空间的浪费，但是整齐的block大小，便于快速找到、读取对应的内容。（p.s. 考虑到hdfs冗余设计，默认三份拷贝，实际上3*3=9个block的物理空间。）

spark中的partition 是弹性分布式数据集RDD的最小单元，RDD是由分布在各个节点上的partition 组成的。partition 是指的spark在计算过程中，生成的数据在计算空间内最小单元，同一份数据（RDD）的partition 大小不一，数量不定，是根据application里的算子和最初读入的数据分块数量决定的，这也是为什么叫“弹性分布式”数据集的原因之一。

总结：

block位于存储空间、partition 位于计算空间，

block的大小是固定的、partition 大小是不固定的，

block是有冗余的、不会轻易丢失，partition（RDD）没有冗余设计、丢失之后重新计算得到。

理解Spark从HDFS读入文件默认是怎样分区的

Spark从HDFS读入文件的分区数默认等于HDFS文件的块数(blocks)，HDFS中的block是分布式存储的最小单元。如果我们上传一个30GB的非压缩的文件到HDFS，HDFS默认的块容量大小128MB，因此该文件在HDFS上会被分为235块(30GB/128MB)；Spark读取SparkContext.textFile()读取该文件，默认分区数等于块数即235。

2、为什么会分区

Spark RDD是一种分布式的数据集，由于数据量很大，因此要它被切分并存储在各个结点的分区当中。从而当我们对RDD进行操作时，实际上是对每个分区中的数据并行操作。我们需要注意的是，只有Key-Value类型的RDD才有分区的，非Key-Value类型的RDD分区的值是None的。

3、Spark RDD 分区函数

1.HashPartition

HashPartitioner确定分区的方式：partition = key.hashCode() % numPartitions

弊端：弊端是数据不均匀，容易导致数据倾斜，极端情况下某几个分区会拥有rdd的所有数据。

2.RangePartitioner

RangePartitioner会对key值进行排序，然后将key值被划分成分区份数key值集合。

特点:RangePartitioner分区则尽量保证每个分区中数据量的均匀，而且分区与分区之间是有序的，也就是说一个分区中的元素肯定都是比另一个分区内的元素小或者大；但是分区内的元素是不能保证顺序的。简单的说就是将一定范围内的数映射到某一个分区内。其原理是水塘抽样 -----水塘抽样(Reservoir Sampling)问题。

3.CustomPartitioner

CustomPartitioner可以根据自己具体的应用需求，自定义分区。

1）spark默认实现了HashPartitioner和RangePartitioner两种分区策略，我们也可以自己扩展分区策略，自定义分区器的时候继承org.apache.spark.Partitioner类，实现类中的三个方法

def numPartitions: Int：这个方法需要返回你想要创建分区的个数；

def getPartition(key: Any): Int：这个函数需要对输入的key做计算，然后返回该key的分区ID，范围一定是0到numPartitions-1；

equals()：这个是Java标准的判断相等的函数，之所以要求用户实现这个函数是因为Spark内部会比较两个RDD的分区是否一样。

2）使用，调用parttionBy方法中传入自定义分区对象