SparkContext

最新推荐文章于 2025-02-28 11:31:45 发布

不二人生

最新推荐文章于 2025-02-28 11:31:45 发布

阅读量4.4w

点赞数 15

CC 4.0 BY-SA版权

分类专栏： Spark基础文章标签： spark

本文链接：https://blog.csdn.net/king14bhhb/article/details/136978137

Spark基础专栏收录该内容

34 篇文章

订阅专栏

本文详细介绍了SparkContext在Spark中的核心作用，包括创建、配置、资源管理、RDD操作以及与SparkConf的关系，展示了SparkContext在构建分布式计算平台中的关键地位。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

SparkContext

SparkContext是应用启动时创建的Spark上下文对象，是进行Spark应用开发的主要接口，是Spark上层应用与底层实现的中转站。我们俗称上下文，上接机群环境，下接Spark 内核，就是给我们提供的一个入口。

SparkContext是什么

SparkContext是Spark应用程序执行的入口，任何Spark应用程序最重要的一个步骤就是生成SparkContext对象。SparkContext允许Spark应用程序通过资源管理器（Resource Manager）访问Spark集群。其中资源管理器可以是Spark Standalone，Yarn或者Apache Mesos。

如何创建SparkContext类

要创建SparkContext，首先应该创建SparkConf。 SparkConf有一个配置参数，Spark驱动程序（Driver）会将这些参数，传递给SparkContext。

这些参数，指导了spark如何在集群上去请求资源，同时也控制了每个work node的上的container的数目、内存大小和core的数量。

在创建 SparkContext 对象之后，就可以通过它来调用spark函数，比如textFile, sequenceFile, parallelize等。

同时它就可以用来创建RDD，广播变量和作为累加器，进入Spark服务和运行作业。所有这些都可以在SparkContext停止之前执行。

关闭SparkContext

一个JVM只能运行一个SparkContext，如果想新建SparkContext，必须把旧的停掉。调用SparkContext的stop()函数即可：
stop():Unit

Spark停止成功后，Spark会打印出类似下面的日志:
INFO SparkContext: Successfully stopped SparkContext

WorkCount例子

可以利用前面的wordcount例子看看怎么创建SparkContext。

package batch.base
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD

object WordCount {

  //创建sparkConf
  val sparkConf = new SparkConf().setAppName("WordCount").setMaster("local[2]")
  val sc=new SparkContext(sparkConf)
  def main(args: Array[String]): Unit = {
    val rootPath: String = "data/spark"
    val file: String = s"${rootPath}/words.txt"

    // 读取文件内容
    val lineRDD: RDD[String] = sc.textFile(file)
    // 以行为单位做分词
    val wordRDD: RDD[String] = lineRDD.flatMap(line => line.split(" "))
    val cleanWordRDD: RDD[String] = wordRDD.filter(word => !word.equals(""))

    // 把RDD元素转换为（Key，Value）的形式
    val kvRDD: RDD[(String, Int)] = cleanWordRDD.map(word => (word, 1))
    // 按照单词做分组计数
    val wordCounts: RDD[(String, Int)] = kvRDD.reduceByKey((x, y) => x + y)

    // 打印词频最高的5个词汇
    wordCounts.map{case (k, v) => (v, k)}.sortByKey(false).take(5).foreach(println)
  }
}

SparkContext在Spark中的功能

获取Spark应用程序的当前状态

SpkEnv

它是Spark公共服务的运行时环境。它与其他部件互相交互，为Spark应用程序建立分布式计算平台。它为正在运行的spark 应用保留其所需要的服务，服务其中包括记录驱动程序和执行程序的不同环境，从而可以通过SpkEnv来标识 Spark的运行环境。

SparkConf

SparkConf 可以设置spark能处理的最大应用程序数量，并可针对每个应用程序分别进行个性化配置。它的使用也很简单，一些常见的属性，如主URL和应用程序名称，都可以通过set（）方法来配置任意的键、值对。

部署环境（即master URL）

Spark部署环境有两种类型，即本地和集群。
本地模式是非分布式单JVM部署模式。所有执行组件（driver，executor，LocalSchedulerBackend和master）都存在于同一个JVM中。这是唯一一个driver可以对执行起作用的模式。为了测试，调试或演示目的，本地模式是合适的，因为它不需要提前设置来启动火花应用程序。

在集群模式下，Spark以分布模式运行。