
spark
叫我小蟹
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SparkSQL整合Hive与启动HiveServer2
一、Spark整合Hive: ①SparkSQL兼容Hive的源数据库、兼容Hive的自定义函数、兼容Hive的序列化和反序列化。 ②可以用SparkSQL替代Hive或者将Hive的引擎由MapReduce换成SparkSQL。 ③启动SparkSQL必须是client模式,不能是cluster模式; 启动SparkSQL时可以指定启动模式,错误示例如下: bin/spark-sql --deploy-mode cluster --master spark://linux02:7077 --driver-原创 2020-10-05 20:20:45 · 2028 阅读 · 0 评论 -
spark中的transformation算子详解(需要进行shuffle的算子)(二)--- 图解+案例+源码分析
shuffle算子 1、cogroup算子:(协分组、或者称为联合分组) (1)group与cogroup: ①group:是将一个RDD里面的多个分区中的key相同的数据,通过shuffle进入到同一个分区的同一组中; ②cogroup:是将两个或多个RDD联合起来,通过shuffle将key相同的数据进入到同一个分区的同一个组中;得到的结果是一个RDD; (2)cogroup的返回值: ①经过cogroup返回的新的RDD是一个对偶元组,key相同的value不是放入一个迭代器,而是两个或多个迭代器中;原创 2020-09-21 23:09:38 · 1092 阅读 · 1 评论 -
spark中的transformation算子详解(需要进行shuffle的算子)(一)
shuffle算子 1、groupByKey (针对于对偶元组类型的数据进行按key分组操作) (1)经groupByKey处理后的数据得到的结果泛型可以是:(String,Iterator(Int)); (2)调用groupByKey后生成一个shuffledRDD; (3)key相同的进入同一节点的同一分区中; (4)如何保证key相同的进入同一台机器的同一分区中?一个分区中只有一个key吗? ①溢写磁盘,标识key,拉取属于自己的key到同一分区;下游到上游拉取属于自己的key到同一分区的同一组内;原创 2020-09-20 17:55:53 · 401 阅读 · 0 评论 -
spark案例分析之:订单数据案例--计算订单分类成交金额
需求: 订单数据案例:(数据检索并将计算结果保存到MySQL中) (1)需求: 在给定的订单数据中,根据订单的分类ID进行聚合,然后按照订单分类名称,统计出某一天商品哥哥分类的成交金额;然后将计算结果保存到MySQL中。 (2)字段说明: oid:订单id,String类型 cid: 商品分类id,Int类型 money: 订单金额,Double类型 longitude: 经度,Double类型 latitude: 纬度,Double类型 (3)分类信息:1.家具;2.手机;3.服装。原创 2020-09-20 10:29:35 · 1953 阅读 · 0 评论 -
Spark简易执行流程(以standalone-client模式为例)
1、加载主类,通过反射调用指定类的main方法; 2、创建SparkContext,与Master进行通信申请资源; 3、Master与Worker通信,启动executor; 4、Worker中启动executor,并创建线程池; 5、executor向Driver反向注册; 6、创建原始RDD; val lines = sc.textFile(“hdfs://linux02:9000/data”) 7、调用RDD中的Transformation(s)算子; val result = lines.fil.原创 2020-09-17 22:34:59 · 228 阅读 · 0 评论