目录
背景
线上某Kafka Topic原有6个分区,消费者服务有10个POD节点,。
问题现象
上午11.30左右一波下单高峰,根据分布式消息告警发现有少量消息堆积,但是堆积量不大,持续几分钟后恢复正常。
下午1.30点后出现新一轮高峰,出现了大量消息堆积,堆积量超过两万。由于堆积的消息影响了三方外卖单的接单业务,陆续有门店反馈三方外卖单接单时间很长,只能手动接单。
处理过程
1.Topic分区扩容
由于当前Topic分区较少,服务节点数量已经大于分区数,加服务节点没有意义。
在确定了当前MQ消息顺序要求不是特别高,且消费逻辑做了幂等后,决定把分区扩容一倍。
扩容后大部分分区堆积很快就消失了,但是仍然有四个分区不太正常。
原因是