
算子
叫我小蟹
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark中的transformation算子详解(需要进行shuffle的算子)(二)--- 图解+案例+源码分析
shuffle算子 1、cogroup算子:(协分组、或者称为联合分组) (1)group与cogroup: ①group:是将一个RDD里面的多个分区中的key相同的数据,通过shuffle进入到同一个分区的同一组中; ②cogroup:是将两个或多个RDD联合起来,通过shuffle将key相同的数据进入到同一个分区的同一个组中;得到的结果是一个RDD; (2)cogroup的返回值: ①经过cogroup返回的新的RDD是一个对偶元组,key相同的value不是放入一个迭代器,而是两个或多个迭代器中;原创 2020-09-21 23:09:38 · 1092 阅读 · 1 评论 -
spark中的transformation算子详解(需要进行shuffle的算子)(一)
shuffle算子 1、groupByKey (针对于对偶元组类型的数据进行按key分组操作) (1)经groupByKey处理后的数据得到的结果泛型可以是:(String,Iterator(Int)); (2)调用groupByKey后生成一个shuffledRDD; (3)key相同的进入同一节点的同一分区中; (4)如何保证key相同的进入同一台机器的同一分区中?一个分区中只有一个key吗? ①溢写磁盘,标识key,拉取属于自己的key到同一分区;下游到上游拉取属于自己的key到同一分区的同一组内;原创 2020-09-20 17:55:53 · 401 阅读 · 0 评论