
SparkStreaming
RayBreslin
大数据开发、设计企业应用
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
(转)CDH下集成spark2.2.0与kafka(四十一):在spark+kafka流处理程序中抛出错误java.lang.NoSuchMethodError:
【转载原因:作者写的非常明确,受益匪浅在cdh上集成环境】【原文连接:https://www.cnblogs.com/yy3b2007com/p/10274053.html】CDH下集成spark2.2.0与kafka(四十一):在spark+kafka流处理程序中抛出错误java.lang.NoSuchMethodError: org.apache.kafka.clients.consumer.KafkaConsumer.subscribe(Ljava/util/Collection;)V错误转载 2020-05-23 18:23:38 · 1010 阅读 · 0 评论 -
kafka(十八):Streaming消费多个topic实例,并分别处理对应消息
一、实现功能Streaming从Kafka中读取消息,而不同topic有可能会有不同的日志结构,需要依据不同的topic结构进行对应的处理。二、环境1.kafka_2.11-0.10.0.1特别提醒:kafka_2.11-0.10.2.1好像有问题,Streaming创建Direct直接连接获取不到信息,一直报错,坑了两天尽量不要用!换了其他版本后kafka_2.11-0.10.0...原创 2019-12-15 16:21:26 · 4291 阅读 · 0 评论 -
Streaming kafka 报错:java.lang.ClassCastException: kafka.cluster.BrokerEndPoint cannot be cast to kaf
一、问题描述使用SparkStreaming读取kafka消息,采用Direct的方法读取,然后,在idea中调试时,报错:19/12/08 17:11:31 INFO BlockManager: Initialized BlockManager: BlockManagerId(driver, 192.168.31.1, 61291, None)Exception in thread ...原创 2019-12-08 17:35:00 · 542 阅读 · 0 评论 -
SparkStreaming(17):updateStateByKey算子,保留上一次计算结果
1.实现功能如果SparkStreaming程序断掉,重新启动,可以读取断掉之前的结果。通过,使用SparkStreaming的HA:checkpoints。【参考:kafka(十四):SparkStreaming和Kafka接口的HA:checkpoints】2.代码package _0809kafka//import com.beifeng.util.SparkUtil...原创 2018-10-20 11:10:53 · 950 阅读 · 0 评论 -
SparkStreaming(16):updateStateByKey算子
1.实现功能需要累加数据的场景,当前批次的计算结果,要累加之前批次的结果。这个时候,需要使用updateStateByKey算子,同时使用checkpoint来实现。2.代码package _0809kafka//import com.beifeng.util.SparkUtilimport org.apache.spark.streaming.dstream.{DStream...原创 2018-10-20 10:58:44 · 555 阅读 · 0 评论 -
SparkStreaming(15):DStream转换为RDD的Transform算子
1.实现功能 DStream中还是缺少某些API的,比如sortByKey之类的。所以使用Transform直接操作DStream中的当前job/批次对应的RDD,来替换DStream的操作(可以直接使用RDD的api),比较方便。2.代码package _0809kafkaimport java.text.SimpleDateFormatimport org.apach...原创 2018-10-20 10:09:53 · 6014 阅读 · 0 评论 -
kafka(十四):SparkStreaming和Kafka接口的HA:checkpoints
1.功能实现提供了一种sparkstreaming接收kafka消息的元数据恢复的功能,方便解决一些应用宕机后的重复消费问题,即宕机后重启,sparkstreaming可以从之前消费位置开始消费,而不是从头开始消费。2.代码package _0809kafkaimport kafka.common.TopicAndPartitionimport kafka.message.Me...原创 2018-10-20 09:38:49 · 409 阅读 · 0 评论 -
SparkStreaming(11):高级数据源flume-pull方式(生产)
1.环境(1)生产环境flume1.6.0spark2.1.0(2)下载对应依赖备注:一定要将依赖都放入flume的Flume’s classpath内,否则flume运行有问题。(遇到过坑~~~)(i) Custom sink JAR: groupId = org.apache.spark artifactId = spark-streaming-flume-si...原创 2018-10-11 07:18:28 · 258 阅读 · 0 评论 -
SparkStreaming(10):高级数据源flume-push方式(生产)
【参考:http://spark.apache.org/docs/2.1.0/streaming-flume-integration.html】1.环境spark2.1.0flume1.6.02.flume的配置文件flume_push_streaming.conf(1)flume作用是将服务器数据,传递到本地windows环境的端口(2)IP:192.168.57....原创 2018-10-11 07:04:13 · 516 阅读 · 0 评论 -
Streaming消费kafka信息ERROR:没有消费消息, WARN ClientUtils$: Fetching topic metadata with correlation id 0 for
1.问题描述kafka自己的consumer可以消费,但是使用Streaming的API消费kafka消息,就没有消费记录,同时控制界面上显示信息:18/11/22 18:07:26 INFO SyncProducer: Connected to localhost:9092 for producing18/11/22 18:07:26 INFO SyncProducer: Disco...原创 2018-11-24 15:04:44 · 1241 阅读 · 1 评论 -
Streaming消费kafka报错:java.lang.NoClassDefFoundError: net/jpountz/util/SafeUtils
1.问题描述Streaming消费kafka消息,报以下错误:18/11/22 18:14:55 ERROR Executor: Exception in task 0.0 in stage 14.0 (TID 9)java.lang.NoClassDefFoundError: net/jpountz/util/SafeUtils at org.apache.spark.io.LZ4...原创 2018-11-24 15:04:35 · 1944 阅读 · 0 评论 -
idae运行spark代码报错ERROR MetricsSystem: Sink class org.apache.spark.metrics.sink.MetricsServlet cannot b
1.问题描述在idea中编写,streaming处理服务器socket传递的数据,结果报错:"C:\Program Files\Java\jdk1.8.0_91\bin\java" -Didea.launcher.port=7534 "-Didea.launcher.bin.path=C:\Program Files (x86)\JetBrains\IntelliJ IDEA 2016....原创 2018-11-25 11:13:07 · 3367 阅读 · 1 评论 -
SparkStreaming(7-1):实例-wordcount统计结果写入到MySQL,使用on duplicate key update,重复则叠加
一、实现功能之前使用streaming统计wordcount结果,写入MySQL。但是,当word重复的时候,因为没有设置主键,插入mysql中的是重复键,这样没有统计意义,所以特别在此更新。使用mysql的on duplicate key update功能实现:1.如果插入数据,主键不存在,则进行插入;2.如果存在,则实现更新操作!二、实现步骤1.准备工作:mysql中创建表...原创 2018-12-23 14:45:20 · 904 阅读 · 0 评论 -
SparkStreaming(9):实例-Streaming整合Spark SQL,进行wordcount功能
1.功能实现 综合Spark Streaming和Spark SQL,进行word count的统计。核心理解DStream和RDD相互操作,需要通过使用foreachRDD这个API。2.代码package Sparkimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org....原创 2018-10-10 23:10:21 · 1156 阅读 · 0 评论 -
SparkStreaming(8):windows窗口操作
1.概念 在一定的时间间隔(interval)进行一个时间段(window length)内的数据处理。【参考:http://spark.apache.org/docs/2.1.0/streaming-programming-guide.html】2.核心(1)window length : 窗口的长度(下图是3)(2)sliding interval: 窗口的间隔(下图...原创 2018-10-10 21:46:46 · 516 阅读 · 0 评论 -
flume使用pull方式整合Streaming问题: Unable to load sink type: org.apache.spark.streaming.flume.sink.SparkSin
参考官网:http://spark.apache.org/docs/2.1.0/streaming-flume-integration.html1.现象flume输入命令后bin/flume-ng agent \--name simple-agent \--conf conf \--conf-file conf/flume_pull_streaming.conf \-D...原创 2018-09-20 00:18:57 · 2115 阅读 · 0 评论 -
flume使用pull方式整合Streaming问题:Received an error batch - no events were received from channel!
1.现象flume使用pull方式整合Streaming,参考官网http://spark.apache.org/docs/2.1.0/streaming-flume-integration.html,配置好flume以及编写好streaming 程序后,发现使用telnet发送数据,报错:2018-09-20 06:30:33,384 (Spark Sink Processor Thr...原创 2018-09-20 06:35:42 · 680 阅读 · 0 评论 -
spark 提交任务error:java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/client/HBaseAdmin
1.spark提交任务bin/spark-submit --master local[2] \--class _0924MoocProject.ImoocStatStreamingApp_product \--packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.1.0 \/opt/datas/project/scalaP...原创 2018-09-26 00:11:34 · 5339 阅读 · 0 评论 -
SparkStreaming(12):高级数据源kafka Receiver方式(生产)
1.准备环境(1)启动zk bin/zkServer.sh start(2)启动kafka bin/kafka-server-start.sh -daemon config/server.properties(3)创建topicbin/kafka-topics.sh --create --topic kafka_streaming_topic --zo...原创 2018-10-11 18:48:16 · 247 阅读 · 0 评论 -
SparkStreaming(13):高级数据源kafka Direct方式(生产)
【Direct方式,直接从kafka的broker读取数据,而Receiver方式,从zk获得偏移量信息,性能要差一些!】1.测试环境(1)启动zkbin/zkServer.sh start(2) 启动kafkabin/kafka-server-start.sh -daemon config/server.properties(3) 创建topicbin/kaf...原创 2018-10-11 18:59:37 · 352 阅读 · 0 评论 -
SparkStreaming(1):提交wordcount功能
一、目的:使用wordcount官方自带案例,熟悉spark-submit和spark-shell两种提交spark应用程序方法。二、操作目的1.使用spark-submit提交(1)启动hdfs(2)spark根目录下执行bin/spark-submit --master local[2] \--class org.apache.spark.examples.stre...原创 2018-10-08 22:39:06 · 422 阅读 · 0 评论 -
SparkStreaming(2):粗粒度和细粒度总结
一、粗粒度1.工作原理:(1)Spark Streaming接收到实时数据流(data stream)(2)Spark Streaming把数据按照指定的时间段切成一片片小的数据块(小批次)(3)然后Spark Streaming把小的数据块传给Spark Engine处理(4)Spark Engine处理后,输出处理后的数据(processed result) 二、细...原创 2018-10-08 23:01:29 · 1154 阅读 · 0 评论 -
SparkStreaming(3):构建StreamingContext
1.参考官网http://spark.apache.org/docs/2.1.0/streaming-programming-guide.html#initializing-streamingcontext 2.构建streamingcontext方法(1)使用SparkConf构建import org.apache.spark._import org.apache.spa...原创 2018-10-08 23:25:12 · 312 阅读 · 0 评论 -
SparkStreaming(4):Discretized Streams (DStreams)理解
参考:http://spark.apache.org/docs/2.1.0/streaming-programming-guide.html#discretized-streams-dstreams1.概念(1)DStreams是一个连续的数据流,可以通过两种方式产生:数据源来的输入数据流,或者处理后的数据源的数据。(2)DStreams是一系列的RDD构成的。其中RDD包含了每个i...翻译 2018-10-09 00:01:27 · 481 阅读 · 0 评论 -
kafka(六):与spark streaming对接,spark streaming接收kafka数据源
1.功能实现spark streaming从kafka接收数据,有两种方式,receiver和direct两种方式。2.pom依赖针对kafka_2.10-0.8.2.1版本(1)kafka依赖<!-- https://mvnrepository.com/artifact/org.apache.kafka/kafka --><dependency>...原创 2018-10-18 19:41:09 · 828 阅读 · 0 评论 -
SparkStreaming(5):处理不同数据源(socket源数据或者处理本地/HDFS文件)
一、实现功能Streaming处理socket数据源或者本地/hdfs上的数据源。二、处理socket源数据1.实现功能:SparkStreaming处理socket源的数据,并进行wordcount的统计。2.scala代码package Sparkimport org.apache.spark.SparkConfimport org.apache.spark.s...原创 2018-10-09 20:44:10 · 597 阅读 · 0 评论 -
SparkStreaming(14):log4j日志-flume-kafka-SparkStreaming的整合
一、功能实现模拟log4j的日志生产,将日志输出到flume服务器。然后,通过flume将日志信息输出到kafka,进而Streaming可以从kafka获得日志,并且进行简单的处理。二、步骤1.目的:使用log4j将日志输按照一定格式输出,并且传递给flume服务器特定端口接收数据。然后使用kafka接收,并使用streaming处理。2.产生log4j日志:(1)在I...原创 2018-10-16 20:36:17 · 410 阅读 · 0 评论 -
SparkStreaming(6):实例-统计到目前为止累积出现的单词的个数(updateStateByKey)
1.实现功能现实中,不仅需要统计,当前批次的单词个数,还需要统计,迄今为止的总的单词个数。这个就是需要,使用到updateStateByKey算子。【参考:http://spark.apache.org/docs/2.1.0/streaming-programming-guide.html】2.代码package Sparkimport org.apache.spark...原创 2018-10-10 20:16:04 · 1226 阅读 · 0 评论 -
SparkStreaming(7):实例-wordcount统计结果写入到MySQL
一、功能概述DStreams的输出操作,即将DStreams输出到对应的目的地。输出操作包括:print、saveAsTextFiles、saveAsObjectFiles、saveAsHadoopFiles、foreachRDD。本例将使用foreachRDD把数据输出到外部mysql数据库。【参考:http://spark.apache.org/docs/2.1.0/streaming...原创 2018-10-10 21:11:37 · 908 阅读 · 0 评论 -
kafka 错误:spark streaming使用direct方式读取kafka信息 OffsetOutOfRangeException 异常分析与解决
1.问题描述spark streaming使用direct方式读取kafka信息,但是出现问题:"C:\Program Files\Java\jdk1.8.0_91\bin\java" -Didea.launcher.port=7535 "-Didea.launcher.bin.path=C:\Program Files (x86)\JetBrains\IntelliJ IDEA 201...原创 2018-10-19 23:27:36 · 1541 阅读 · 0 评论 -
kafka(十三):spark ReceiveAPI和DirectAPI从kafka消费数据
一、实现功能Streaming通过两种方式,消费kafka数据。具体实现,参考spark:http://spark.apache.org/docs/2.1.0/streaming-kafka-0-8-integration.html二、环境1.spark2.1.02.kafka0.9.0.03.pom文件 <properties> <scala...原创 2018-10-19 23:36:03 · 588 阅读 · 0 评论 -
Error:spark streaming 的textFileStream读取不了数据 ,即:在目录中创建文件,但是在streaming程序中是没有读取对应数据
1.现象SparkStreaming从本地文件夹"..\WorkspaceforMyeclipse\scalaProjectMaven\datas"中读取数据,并进行DStream/RDD处理,但是,在datas中创建文件并且写入文字,程序都无法读取。2.原因:SparkStreaming需要读取流式的数据,而不能直接从datas文件夹中创建。3.解决:创建文件 t...原创 2018-09-18 20:25:27 · 2924 阅读 · 0 评论