
Kafka
文章平均质量分 92
瓜牛呱呱
Hope is a good thing
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Kafka相比于HDFS的优势
今天看到了一个面试题,“数据为什么不直接采集到HDFS,而是采集到Kafka中”,觉得蛮经典了,整理了一下:个人总结了四点:1、实时性:hdfs的实时性没有kafka高。2、消费量的记录:hdfs不会记录你这个块文件消费到了哪里,而基于zookeeper的kafka会记录你消费的点。3、并发消费:hdfs不支持并发消费,而kafka支持并发消费,即多个consumer.4、弹性且有序:当数据量会很大原创 2017-05-08 15:50:51 · 5759 阅读 · 2 评论 -
SparkStreaming采用直连方式(Direct Approach)获取Kafka数据的研究心得
这里不多介绍一些基础的,只说说我最近研究直连方式的心得使用SparkStreaming的直连方式来进行流式处理,并且这个程序要可靠性,并且具有一致性(原子性),那么我心中就产生了如下的疑问:1、如何保证直连方式中Kafka的offset的精准度2、如何保证StreamingContext信息的不丢失:即重启后,集群配置信息、计算处理过程中信息的不丢失3、如何保证Driver挂掉...原创 2017-05-17 18:40:03 · 3496 阅读 · 1 评论 -
SparkStreaming 中 Kafka 参数 auto.offset.reset 的说明
作用:如果Kafka中没有初始偏移或者当前偏移在服务器上不再存在时(例如,因为该数据已被删除)的处理方法。Kafka单独写consumer时可选参数:earliest:自动将偏移重置为最早的偏移量latest:自动将偏移量重置为最新的偏移量(默认)none:如果consumer group没有发现先前的偏移量,则向consumer抛出异常。其他的参数:向consumer抛出...原创 2017-06-16 11:22:38 · 4396 阅读 · 0 评论 -
SparkStreaming Direct 方式中手动管理 Kafka Offset 的示例代码
在大数据的场景下,流式处理都会借助 Kafka 作为消息接入的中间件,且 SparkStreaming 中 Direct 方式的优越性,现在可以说都使用 Direct 方式来获取 Kafka 数据Direct 方式是采用 Kafka 低级的 API 来获取数据,也就是说我们要自己来管理 这个offset SparkStreaming 中可以用 StreamingContext 的 chec...原创 2018-04-25 16:17:26 · 2773 阅读 · 0 评论 -
Kafka Producer生产数据时数据丢失分析
今天在测试 Storm 程序过程中,想通过运行在 idea 的 Kafka Producer 生产一条数据来验证一下 Storm 程序,发现居然没有成功将数据生产到 Kafka 集群中,于是进行了一番测试,最终找到了原因! 注:下面程序测试中使用的 kafka 的版本为 0.10.2.0,zookeeper 的版本为 3.4.5一、情景再现在 linux 中运行如下命令来监控...原创 2018-05-10 15:59:05 · 8178 阅读 · 3 评论 -
记用 SpringBoot 消费 Kafka 过程中的一次问题排查
1、现象最近在接受公司Kafka的集群,之前公司重启一台服务器的时候出现重复消费的情况,所以就跟消费端的服务一起联调查册。消费端目前有两个服务,但是在测试的过程中发现其中一个服务可以接受到数据,但是另一个服务端却接受不到数据。于是查看了一下它的日志,关键日志如下:[INFO] org.apache.kafka.clients.consumer.internals.AbstractCoord...原创 2018-07-04 20:35:02 · 10488 阅读 · 1 评论