
spark
天一涯
希望每天都有新收获~
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark Programming Guide
本文主要内容来源于spark官网:http://spark.apache.org/docs/1.6.0/programming-guide.html Overview 每个Spark应用程序都包含一个驱动程序,该程序运行用户的Main函数并在集群上执行各种并行操作。 Spark提供的最主要抽象是弹性分布式数据集(RDD)关于RDD这里不再详细写了。Spark中的第二个抽象是可以在并行操作中使用的共享变量,Spark支持两种类型的共享变量:广播变量(将值缓存到所有节点的内存中)和累加器(仅“添加”到其上原创 2020-08-23 18:18:22 · 546 阅读 · 0 评论 -
关于SparkContext
1.SparkContext是spark功能的入口,代表与spark集群的连接,能够用来在集群上创建RDD、累加器、广播变量 2.每个JVM里只能存在一个处于激活状态的SparkContext,在创建新的SparkContext之前必须调用stop()来关闭之前的SparkContext 3. SparkConf包含了Spark集群配置的各种参数,对于一般简单应用,只需要传递下面两个参数: 集群URL:告诉Spark如何连接到集群上。比如“local”表示在本地运行,“local[4]”表示以4核..原创 2020-08-23 17:21:29 · 1123 阅读 · 0 评论 -
初识spark
1.Spark的组成 SparkCore:将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。 SparkSQL:Spark Sql 是Spark来操作结构化数据的程序包,可以让我使用SQL语句的方式来查询数据,Spark支持 多种数据源,包含Hive表,parquest以及JSON等内容。 SparkStreaming:是Spark提供的实时数据进行流式计算的组件。 MLlib:提供常用机器学习算法的实现库。 GraphX.原创 2020-08-03 21:39:00 · 387 阅读 · 0 评论 -
Spark算子详解及案例分析
原文:https://cloud.tencent.com/developer/article/1085207 目录 一、分类 二、Value型Transformation算子 三、Key-Value型Transformation算子 输入输出分区1对1 聚集 连接 四、Actions算子 一、分类 1、Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据。 2、Key-Value数据类型的Transformation算原创 2020-08-22 20:29:26 · 1326 阅读 · 0 评论 -
Spark快速入门
本文主要内容来源于官方Spark Quick Start 一、交互式分析 1、Basic Spark Shell可以使用scala或python访问, Scala打开方式: ./bin/spark-shell Python打开方式: ./bin/pyspark翻译 2020-08-22 20:03:47 · 468 阅读 · 0 评论