
spark
文章平均质量分 95
weixin_41366941
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop UI+spark UI
如何进入UI :https://blog.csdn.net/hua_jing/article/details/78433790如何调用spark UI:https://blog.csdn.net/u013013024/article/details/73498508转载 2018-07-20 09:45:16 · 517 阅读 · 0 评论 -
Uncaught exception while reverting partial writes to file ...(Too many open files)
在用一个新的spark集群 处理业务时,处理的任务量稍微大一点,涉及到较多的map和reduce的任务式就会报下列错误: 开始以为是spark集群的内存没给够,因为在另一个更大集群中和自己只有6g的单机上跑都没有问题,但尝试加大集群运行内存和集群worker和executor数量后仍然报同样地错误。在技术群里问了一下,有人提示说是centos系统的系统参数没有设置好,沿着这个线索对比了...原创 2018-08-15 17:12:48 · 1903 阅读 · 0 评论 -
基于Hadoop与Spark大数据平台的个性化图书推荐系统搭建学习总结
前言:这两个月来一直在接手实验室师兄的一个图书推荐项目,期间从读懂其用pyspark代码到将其代码修改成pyspark、scala代码在spark大数据平台上运行实现相应的功能对于我这样一个无人指点的小白可谓是历经了一凡坎坷,现在做记录如下。一、spark分布式平台运到的坑用spark-submit提交pyspark代码没有按预期运行分布式模式 分布式平台(hadoop+spark)...原创 2018-08-19 15:15:04 · 10690 阅读 · 4 评论 -
datasSet学习
1、dataset官方定义:A Dataset is a strongly typed collection of domain-specific objects that can be transformed in parallel using functional or relational operations.Each Dataset also has an untyped vie...原创 2018-08-28 16:51:24 · 255 阅读 · 0 评论 -
ALS推荐算法学习总结
在完成基于大数据平台的图书馆推荐系统后,最近把学习的中心放在机器学习上面。在接下来的几个月中,希望自己能弄明白常见机器学习算法的原理,并且能在spark平台上进行实践。在我的机器学习学习和实践之路的一个本书是《Spark机器学习》,这本书虽然比较旧,但是写的还是比较好。书里讲了各种常见的机器学习算法,并且在spark平台上进行了实战。在学习到此书第四章--构建基于spark的推荐系统引擎时觉得...原创 2018-09-03 15:14:52 · 22286 阅读 · 0 评论 -
scala中的foldLeft学习
闲来无事,在stackoverflow上看代码玩,偶尔发现一个之前没有用过的函数--foldLeft函数。现做记录如下:val sourceDF = Seq( (" p a b l o", "Paraguay"), ("Neymar", "B r asil")).toDF("name", "country")val actualDF = Seq( &qu原创 2019-02-26 21:40:16 · 1250 阅读 · 0 评论