卢子墨
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark源码详解
https://www.cnblogs.com/huanghanyu/p/12989067.html#_label3_3原创 2024-07-10 17:40:47 · 182 阅读 · 0 评论 -
Spark调优-解决job任务运行超时或者慢的问题
(3)如果 spark.shuffle.io.connectionTimeout 导致的连接失败,并且重试次数(spark.rpc.numRetries)也耗尽了,那么 spark.network.timeout 将决定在放弃任务之前等待多长时间。在任务运行过程中,发现有些task执行速度较慢,耗时数分钟级别,根据执行结果分析,发现是数据倾斜了,倾斜的原因可能是网络io,cpu,mem都有可能造成这个节点上的任务执行缓慢,可以去看该节点的性能监控来分析原因。(默认值是120s)(默认值是120s)原创 2024-04-25 19:26:35 · 668 阅读 · 0 评论 -
解决:Spark以overwrite的方式写ES会造成该索引有一段时间的空窗期问题
【代码】解决:Spark以overwrite的方式写ES会造成该索引有一段时间的空窗期问题。原创 2024-01-17 21:34:37 · 452 阅读 · 0 评论 -
Spark2.4.1源码解析
2万字硬核spark源码精讲手册转载 2022-12-09 10:07:03 · 248 阅读 · 0 评论 -
Springboot+Spark(http请求调用spark api,并以集群模式运行)
Springboot+Spark(http请求调用spark api,并以集群模式运行)转载 2022-11-08 14:37:34 · 882 阅读 · 0 评论 -
springboot基于spark-launcher构建rest api远程提交spark任务
springboot基于spark-launcher构建rest api远程提交spark任务转载 2022-11-08 14:35:57 · 238 阅读 · 0 评论 -
spark项目实战-电商分析平台
第1章 项目概述电商分析平台是对用户访问电商平台的行为进行分析。1.1 项目简介 本项目主要讲解一个大型电商网站后台的企业级大数据统计分析平台,该平台以 Spark 为主,对电商网站的流量进行离线和实时的分析。 该大数据分析平台对电商网站的各类用户行为(访问行为、购物行为、广告点击行为等)进行复杂的分析。用统计分析出来的数据,辅助公司中的 PM(产品经理)、数据分析师以及管理人员分析现有产品的状况,并根据用户行为分析结果持续改进产品的设计,以及调整公司的战略和业务。最终达到用大数...转载 2022-03-25 09:53:54 · 19450 阅读 · 112 评论 -
Spark的pom依赖
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/mave...原创 2018-08-01 17:46:42 · 9444 阅读 · 1 评论 -
Spark大型项目实战、Elasticsearch完整视频(百度网盘链接)
Elasticsearch顶尖高手系列课程(基础篇+高手篇)(从零开始精通分布式搜索ElasticSearch)#有效期 2019.11.22-29链接:https://pan.baidu.com/s/1cvwmF9AGuGbW0klAhfSP4g 提取码:mgrk亿级流量电商详情页系统实战(完整版):缓存架构+高可用服务架构+微服务架构(全网唯一讲亿级流量的课程,而且有落地...原创 2019-02-26 17:22:12 · 35328 阅读 · 38 评论 -
Spark DataFrame中的join类型
https://blog.csdn.net/anjingwunai/article/details/51934921转载 2019-05-24 09:45:01 · 968 阅读 · 0 评论 -
IDEA 的debug断点调试技巧与总结详解篇
详细参考:https://blog.csdn.net/qq_27093465/article/details/64124330转载 2018-12-10 15:48:27 · 2629 阅读 · 0 评论 -
Spark之UDF、UDAF详解
对于一个大数据处理平台而言,倘若不能支持函数的扩展,确乎是不可想象的。Spark首先是一个开源框架,当我们发现一些函数具有通用的性质,自然可以考虑contribute给社区,直接加入到Spark的源代码中。我们欣喜地看到随着Spark版本的演化,确实涌现了越来越多对于数据分析师而言称得上是一柄柄利器的强大函数,例如博客文章《Spark 1.5 DataFrame API Highlights: D...转载 2018-08-17 17:08:55 · 2892 阅读 · 0 评论 -
KDE大数据集群开启kerberos认证关于org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe not found的问题
原因: 使用了GoldMount大数据集群(KDE)在spark提交任务之后,一直报org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe not found的错误。查找各种资料具体解决措施如下(以下配置同步集群全部节点):(1)配置hive/conf 下的hive-site.xml :<property>...原创 2019-07-18 15:30:57 · 1328 阅读 · 0 评论 -
java.lang.ClassNotFoundException: org.apache.spark.sql.internal.StaticSQLConf$
Bug描述:Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/internal/StaticSQLConf$ at org.apache.spark.sql.SparkSession$Builder.getOrCreate(SparkSession.scala:938) at ...原创 2019-11-28 10:17:17 · 2598 阅读 · 0 评论 -
spark DF行转列、列转行
https://blog.csdn.net/godlovebinlee/article/details/85719360https://blog.csdn.net/u013090676/article/details/80721764?utm_source=blogxgwz3原创 2020-01-15 14:27:38 · 959 阅读 · 0 评论 -
详解 inner join with another 'dataframe' df1.join(df2, $"df1Key" === $"df2Key")
ex:df.join(ds,df("name")===ds("name") and df("age")===ds("age"),"outer").show();其中: (1)“ds”是关联的dataframe; (2)"df("name")===ds("name") and df("age")===ds("age原创 2019-01-09 09:41:14 · 710 阅读 · 0 评论 -
hive on spark 利用maven重新编译spark
缘由:使用hive on spark 进行hivesql操作的时候报以下错误:Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spark client.)' FAILED: Execution Error, retur...原创 2018-12-21 14:54:41 · 1627 阅读 · 0 评论 -
潜在语义分析Latent Semantic Analysis (LSA)
目录目录 概述 Tutorial LSA的工作原理 How Latent Semantic Analysis Works 实例A Small Example Part 1 - Creating the Count Matrix Python - Import Functions Python - Define Data Python - Define LSA C...翻译 2019-11-10 15:44:09 · 765 阅读 · 0 评论 -
DataFrame 的函数详解
Action 操作1、 collect() ,返回值是一个数组,返回dataframe集合所有的行2、 collectAsList() 返回值是一个java类型的数组,返回dataframe集合所有的行3、 count() 返回一个number类型的,返回dataframe集合的行数4、 describe(cols: String*) 返回一个通过数学计算的类表值(count, mea...转载 2019-01-09 09:51:56 · 6251 阅读 · 0 评论 -
orc split generation failed with exception:null
原因: 在读取hdfs上的文件时遇到了空文件导致报错。解决办法:添加一个配置hive.exec.orc.split.strategy=ETL即可!原创 2021-05-14 17:24:34 · 3474 阅读 · 0 评论 -
hive on spark的时候,如何做到hive的spark任务也支持动态分配(已解决)
需求:比如: 在hive里面写了:select count(*) from test 这样的一个任务,运行模式是hive on spark ,但是用户就只关心写这个任务就行,至于这个任务需要几个executor,如何实现靠spark的机制动态分配?开启动态资源分配一定要开启 Spark Shuffle Service(1)spark-default.conf 添加配置:&l...原创 2019-10-17 14:18:58 · 1430 阅读 · 0 评论 -
Spark 协同过滤(CF)如何将一直为Long类型的user转换为Rating中要求的int类型 (测试通过)
/*** 问题:* 在对数据进行训练时,Rating要求的是int,int,double,但是现有的数据是long,string,double类 型,使用toInt进行转换时依然会报错,这是因为long类型转换成int类型已经超出了int的最大值。* * 解决思路:* 创建两张映射表,将long类型的字段映射成int类型(使用row_number()...原创 2018-12-17 17:49:18 · 993 阅读 · 0 评论 -
spark性能调优:执行器内存(executor_memory)、执行器个数(num_executor)、执行器核数(executor_cores)
执行器内存(executor_memory)、执行器个数(num_executor)、执行器核数(executor_cores)原创 2022-07-07 16:28:52 · 1756 阅读 · 0 评论 -
scala隐式转换(详解)
https://blog.csdn.net/m0_37138008/article/details/78120210转载 2019-10-11 18:10:15 · 298 阅读 · 0 评论 -
spark-submit参数设置
spark-submit提交参数设置spark-submit --master spark://ip:7077 (--yarn)--class moudlename.classname--files /apps/hive-2.3.1/conf/hive-site.xml--driver-class-path /apps/hive-2.3.1/lib/mysql-connec...原创 2019-11-13 09:03:04 · 890 阅读 · 0 评论 -
Spark详解二
八、Spark 部署模式1、Local本地模式:运行于本地spark-shell --master local[2] (local[2]是说,执行Application需要用到CPU的2个核)2、Standalone独立模式:Spark自带的一种集群模式Spark自己管理集群资源,此时只需要将Hadoop的HDFS启动Master节点有master,Slave节点上有worke...转载 2018-08-10 10:41:01 · 324 阅读 · 0 评论 -
sparkSql读取hive表数据,使用正则替换指定字符,然后进行 行转列
实例:住高层的都看看//@M大王叫我来巡山:电动车楼道充电真的有很大安全隐患!!//@休闲璐:看了这篇我害怕的点是我对门就天天把电动车放在楼道正则替换得到想要的结果:住高层的都看看§电动车楼道充电真的有很大安全隐患!!§看了这篇我害怕的点是我对门就天天把电动车放在楼道/** overview_content --> 准备替换的表字段** '//@.*?:' -->...原创 2020-01-09 17:24:16 · 994 阅读 · 0 评论 -
spark性能调优:num-executors, execuor-cores, executor-memory
spark性能调优转载 2022-07-21 10:30:32 · 3939 阅读 · 0 评论 -
Spark高级数据分析· LSA
潜在语义分析wget http://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles-multistream.xml.bz21 获取数据def readFile(path: String, sc: SparkContext): RDD[String] = { val conf = new ...转载 2019-11-10 16:04:33 · 410 阅读 · 0 评论 -
Spark知识汇总(详细)
https://www.cnblogs.com/jareny/p/10799749.html原创 2020-04-10 13:59:16 · 466 阅读 · 0 评论 -
云平台发放的虚拟机无法提交spark任务到大数据集群上(双IP):Service ‘sparkDriver‘ failed after 16 retries...correct binding ...
1 现象描述部分异常: Service 'sparkDriver' failed after 16 retries.......correct binding address.云平台发放的虚拟机包含两个IP,包含虚拟机内部实际的网络地址(ifconfig查看到的内网IP:192.168.xx.xx)和对方访问的IP(绑定的外网虚拟IP:11.11.xx.xx),想要在云平台外访问虚拟机需要使用外网IP经过一次网络地址转换,直接使用内部IP是无法访问的。所以在当任务提交的时候实际使用的是内部原创 2022-05-28 16:15:52 · 579 阅读 · 1 评论 -
could not find implicit value for parameter impl: breeze.linalg.split.Impl2[org.apache.spark.sql.Col
BUG描述://试图行转列dataContent.withColumn("po_content", explode(split($"po_content", """//@"""))).show()//但是报错could not find implicit value for parameter impl: breeze.linalg.split.Impl2[org.apache.s...原创 2019-12-16 17:00:55 · 1136 阅读 · 0 评论 -
Spark性能优化指南——基础篇
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更...转载 2018-08-08 10:54:09 · 511 阅读 · 0 评论 -
Spark详解一
SparkCore基础(一)学习Spark,首先要熟悉Scala,当然你说你会Python或者Java能不能玩Spark?能!但是不推荐,首推Scala,因为Scala非常便捷,而且Scala有非常好的交互式编程体验(当然了,在这里,Python也不差)。其次呢,我们要对Hadoop的MapReduce要是有一定的了解。不然,学习起来,是会稍微费点功夫。好,不扯这么多了,相关的故事啊,疑问啊可...转载 2018-08-10 10:39:45 · 1634 阅读 · 0 评论 -
Spark性能调优
篇幅较多,具体参看:https://spark-config.readthedocs.io/en/latest/#Spark core优化配置参数:https://blog.csdn.net/qq_33689414/article/details/80621578转载 2019-12-23 11:58:02 · 302 阅读 · 0 评论 -
Spark集群worker无法停止的原因分析和解决
今天想停止spark集群,发现执行stop-all.sh的时候spark的相关进程都无法停止。提示:no org.apache.spark.deploy.master.Master to stopno org.apache.spark.deploy.worker.Worker to stop上网查了一些资料,再翻看了一下stop-all.sh,stop-master.sh,stop-s...转载 2019-01-25 10:24:01 · 1197 阅读 · 1 评论 -
关于spark的sample()算子参数详解
sample(withReplacement : scala.Boolean, fraction : scala.Double,seed scala.Long)sample算子时用来抽样用的,其有3个参数withReplacement:表示抽出样本后是否在放回去,true表示会放回去,这也就意味着抽出的样本可能有重复fraction :抽出多少,这是一个double类型的参数,0-1之...转载 2019-01-22 16:34:42 · 10021 阅读 · 4 评论 -
Spark常见问题汇总及解决思路
https://blog.csdn.net/peace1213/article/details/97942856转载 2019-09-04 15:20:50 · 507 阅读 · 0 评论 -
Spark on yarn使vcores可以使用多个生效(已解决)
yarn 默认情况下,只根据内存调度资源,所以 spark on yarn 运行的时候,即使通过–executor-cores 指定 core 个数为 N,但是在 yarn 的资源管理页面上看到使用的 vcore 个数还是 1原创 2022-07-08 14:25:17 · 912 阅读 · 0 评论 -
Spark面试80连击(上)
1. Spark消费 Kafka,分布式的情况下,如何保证消息的顺序?Kafka 分布式的单位是 Partition。如何保证消息有序,需要分几个情况讨论。 同一个 Partition 用一个 write ahead log 组织,所以可以保证 FIFO 的顺序。 不同 Partition 之间不能保证顺序。但是绝大多数用户都可以通过 message key 来定义,因为同一个...原创 2019-09-04 10:24:59 · 481 阅读 · 0 评论