记一次kafka使用不当导致的服务器异常

news/2024/7/8 3:38:18 标签: java

一、背景

1.运维反馈服务器cpu高,且高达80%
2.经过排查发现kafka出现消息积压情况
3.使用的是springboot kafka框架

dependency>
    <groupId>org.springframework.kafka</groupId>
    <artifactId>spring-kafka</artifactId>
</dependency>

4.kafka消费者需要发起http调用第三方api

5.消费者出现报错日志
6.报错日志每间隔5分钟抛出一次

Consumer exception]
org.springframework.kafka.KafkaException: Seek to current after exception; nested exception is org.apache.kafka.clients.consumer.CommitFailedException: Offset commit cannot be completed since the consumer is not part of an active group for auto partition assignment; it is likely that the consumer was kicked out of the group.
	at org.springframework.kafka.listener.SeekToCurrentBatchErrorHandler.handle(SeekToCurrentBatchErrorHandler.java:72)
	at org.springframework.kafka.listener.RecoveringBatchErrorHandler.handle(RecoveringBatchErrorHandler.java:124)
	at org.springframework.kafka.listener.KafkaMessageListenerContainer$ListenerConsumer.handleConsumerException(KafkaMessageListenerContainer.java:1372)
	at org.springframework.kafka.listener.KafkaMessageListenerContainer$ListenerConsumer.run(KafkaMessageListenerContainer.java:1070)
	at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)
	at java.util.concurrent.FutureTask.run(FutureTask.java:266)
	at java.lang.Thread.run(Thread.java:750)
Caused by: org.apache.kafka.clients.consumer.CommitFailedException: Offset commit cannot be completed since the consumer is not part of an active group for auto partition assignment; it is likely that the consumer was kicked out of the group.
	at org.apache.kafka.clients.consumer.internals.ConsumerCoordinator.sendOffsetCommitRequest(ConsumerCoordinator.java:1116)
	at org.apache.kafka.clients.consumer.internals.ConsumerCoordinator.commitOffsetsSync(ConsumerCoordinator.java:983)
	at org.apache.kafka.clients.consumer.KafkaConsumer.commitSync(KafkaConsumer.java:1510)
	at sun.reflect.GeneratedMethodAccessor239.invoke(Unknown Source)
	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
	at java.lang.reflect.Method.invoke(Method.java:498)
	at org.springframework.aop.support.AopUtils.invokeJoinpointUsingReflection(AopUtils.java:344)
	at org.springframework.aop.framework.JdkDynamicAopProxy.invoke(JdkDynamicAopProxy.java:205)
	at com.sun.proxy.$Proxy206.commitSync(Unknown Source)
	at org.springframework.kafka.listener.KafkaMessageListenerContainer$ListenerConsumer.doCommitSync(KafkaMessageListenerContainer.java:2324)
	at org.springframework.kafka.listener.KafkaMessageListenerContainer$ListenerConsumer.commitSync(KafkaMessageListenerContainer.java:2319)
	at org.springframework.kafka.listener.KafkaMessageListenerContainer$ListenerConsumer.commitIfNecessary(KafkaMessageListenerContainer.java:2305)
	at org.springframework.kafka.listener.KafkaMessageListenerContainer$ListenerConsumer.processCommits(KafkaMessageListenerContainer.java:2119)
	at org.springframework.kafka.listener.KafkaMessageListenerContainer$ListenerConsumer.pollAndInvoke(KafkaMessageListenerContainer.java:1104)
	at org.springframework.kafka.listener.KafkaMessageListenerContainer$ListenerConsumer.run(KafkaMessageListenerContainer.java:1038)
	... 3 common frames omitted

二、原因分析

1.根据报错消息分析
    踢出消费组通常是由于消费者被消费者组移除或重平衡(rebalance)导致的。

2.kafka消费者被踢出有如下几种情况
    心跳超时:消费者没有在规定的时间内发送心跳到 Kafka 集群,导致被移出消费者组。
    处理时间过长:消费者处理消息的时间超过了 max.poll.interval.ms 配置,导致 Kafka 认为消费者已经失效并将其移出消费者组。
    网络问题:网络延迟或不稳定可能导致消费者与 Kafka 集群之间的连接问题。
    资源限制:消费者运行环境的资源(CPU、内存等)不足,导致消费者无法及时处理消息和发送心跳。

3.业务逻辑
    业务上存在调用第三方http接口请求
    第三方接口请求会存在报错情况,通常情况下网络请求会有默认超时时间,例如ConnectTimeout、ReadTimeout等。
    出现消费慢时怀疑是第三方接口导致的,但是服务器日志没有超时报错信息,被误导不是超时导致的。
    重新新增日志打印定位请求参数,发现一直没有执行最后的ack操作,故怀疑是第三方请求线程一直在等待导致线程挂起
    查看代码设置发现原来ReadTimeout超时时间不配置情况下,默认都是-1,没有超时时间,被第三方依赖包坑了

三、解决方案

1.优化消费者处理逻辑
确保消费者处理消息的逻辑高效,尽量减少单个消息的处理时间。如果处理逻辑复杂,可以考虑使用多线程或异步处理来提高效率。

2 涉及第三方接口调用需要做好降级熔断操作
本次存在请求第三方http接口,经过排查是第三方接口一直没响应,同时http请求的sockekTimeOut(aka socketReadTimeOut)没设置超时时间,刚好默认为空,既不超时,
导致接口一直卡住,超过kafka的max.poll.interval.ms的时间

3.如果一个批次的消息在下次poll的时间内处理不完,可以降低poll获取消息的数量

spring:
  kafka:
    consumer:
      max-poll-records: 5 (从50降到5个)

4.如果消费者处理消息的时间较长,可以增加 max.poll.interval.ms 的值,以允许消费者有更长的时间处理消息。
(springboot yaml配置如下)

spring:
  kafka:
    consumer:
      properties:
        max.poll.interval.ms: 600000 (默认是5分钟(300000毫秒))

5.增加心跳间隔和超时时间
调整 heartbeat.interval.ms 和 session.timeout.ms 的值,以允许更长的心跳间隔和更长的会话超时时间
(一般情况下使用默认值即可)

四、踩过的坑


1. 在kafka消费者业务代码中使用了同步锁,例如redis,众所周知,锁竞争不到时会有等待时间,这样加长了消息的处理时长,导致超过max.poll.interval.ms会被踢出消费组

2. 忙中出错
 2.1 查看技术文章说要设置调大max.poll.interval.ms的时间
    

java">    @Bean
    public KafkaListenerContainerFactory<?> batchFactory(ConsumerFactory consumerFactory){
        ConcurrentKafkaListenerContainerFactory<String,String> factory =
                new ConcurrentKafkaListenerContainerFactory<>();
        factory.setConsumerFactory(consumerFactory);
        factory.setConcurrency(1);
        factory.getContainerProperties().setPollTimeout(6000);
        //设置为批量消费,每个批次数量在Kafka配置参数中设置
        factory.setBatchListener(true);
        //设置手动提交ackMode
        factory.getContainerProperties().setAckMode(ContainerProperties.AckMode.MANUAL);
        return factory;
    }


    
    误以为在就是设置factory.getContainerProperties().setPollTimeout(6000)这个方法。结果设置后头痛医脚
 
 2.2 Spring Kafka 中的 setPollTimeout 和 max.poll.interval.ms区别
    在 Spring Kafka 中,setPollTimeout 方法设置的是消费者从 Kafka 服务器拉取消息时的超时时间。这是在每次调用消费者的 poll 方法时使用的超时时间。
    例如:
    container.setPollTimeout(Duration.ofMillis(3000)); // 设置轮询超时时间为3秒
    
    原生 Kafka 客户端中的 poll 方法
    在原生 Kafka 客户端中,poll 方法的超时时间是通过传递给 poll 方法的参数来设置的:
    ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(3000)); // 设置轮询超时时间为3秒
    
    如何理解 poll 超时时间
    poll 方法的超时时间指的是消费者从 Kafka 服务器拉取消息的时间间隔。如果在指定的时间内没有消息可供消费,poll 方法会返回空的 ConsumerRecords 集合。
    这个超时时间不应该与 max.poll.interval.ms 混淆,后者是指消费者处理消息的最长时间,如果超过这个时间,消费者会被认为失效,从而触发重平衡。
    
3. 为了提高消费速度,不恰当的增加消费者多线程
    还是springboot kafka代码
    把factory.setConcurrency(1);改为 factory.setConcurrency(3);
    其实kafka的topic分区数决定了最多分配给多少个消费者(线程),
    例如topic A设置了3个分区,部署三个应用分别每个应用一个消费者线程,那么每个应用刚好分配一个分区,如果只有2个应用,那么每个应用消费者各获得一个分区,剩下一个分区是空的,
    此时可以让一个应用增加并发线程数,即setConcurrency(2),此时提高并发数的应用是获取2个分区,另一个是获得一个分区
    
    补充分区、消费者、消费者多线程的关系
    关于分区和消费者关系,官网原文为:

if, say, 6 TopicPartitions are provided and the concurrency is 3; each container will get 2 partitions. For 5 TopicPartitions, 2 containers will get 2 partitions and the third will get 1. 
If the concurrency is greater than the number of TopicPartitions, the concurrency will be adjusted down such that each container will get one partition.


    假设提供了6个TopicPartitions,并发性为3;每个容器将得到2个分区。对于5个TopicPartitions, 2个容器将获得2个分区,第三个容器将获得1个分区。如果并发性大于TopicPartitions的数量,那么并发性将被调低,这样每个容器将获得一个分区。 


4. 不理解为什么触发重平衡会导致cpu高,导致排查方向不明确

五、验证得出的结论

Kafka 重平衡(rebalance)是指消费者组(Consumer Group)的成员变化(如加入或离开)时,Kafka 会重新分配分区给消费者。这一过程会导致 CPU 使用率升高,具体细节如下:
    【重平衡导致 CPU 高的具体原因】
        1.消费者停止消息处理(Stop-the-World)

       *当重平衡开始时,所有消费者必须停止当前的消息处理。这是一个Stop-the-World操作,

       会影响消费者的正常工作流程。

       *消费者需要提交当前处理到一半的消息的偏移量,这需要与 Kafka Broker 进行通信。
            

        2.协调器与消费者之间的通信
            *Kafka 使用协调器(Coordinator)来管理消费者组。重平衡时,

            协调器需要与所有消费者通信,获取当前消费者的状态,并重新分配分区。
            *这种通信涉及多次网络交互和数据处理,消耗 CPU 资源。
            
        3.分区分配和元数据更新
            *协调器计算新的分区分配方案,并将结果通知所有消费者。消费者需要更新本地的元数据,以反映新的分区分配。
            *这些操作包括反序列化元数据、更新本地状态、处理可能的分区迁移等,都会消耗 CPU。
            
        4.连接和断开连接
            *重平衡期间,消费者可能会频繁地连接和断开连接。这包括重新建立网络连接、初始化通信通道等操作。
            *网络 I/O 操作和相关的上下文切换会增加 CPU 负载。
        
        5.日志记录和监控
            *重平衡过程中,Kafka 和消费者通常会记录大量的日志信息。这些日志记录操作也会增加 CPU 的使用。
            *如果启用了详细的监控和指标收集,这些操作会进一步加剧 CPU 负载。

    【重平衡的流程细节】
        1.触发重平衡
            消费者加入或离开消费者组,或者消费者组协调器发生变化,都会触发重平衡。

   
        2.停止消息处理
            当前消费者停止消息处理,提交当前偏移量。
        3.协调器获取状态
            消费者向协调器发送 JoinGroupRequest,协调器收集所有消费者的状态。
        4.分区重新分配
            协调器根据分区分配策略(如 Range、RoundRobin、Sticky 等)重新分配分区。
        5分区分配通知
            协调器将新的分区分配方案发送给所有消费者,消费者更新本地的分区信息。
        6重新开始消息处理
            消费者根据新的分区分配,重新开始消息处理。


    【分区、消费者、消费者多线程的关系】
    关于分区和消费者关系,官网原文为:

if, say, 6 TopicPartitions are provided and the concurrency is 3; each container will get 2 partitions. For 5 TopicPartitions, 2 containers will get 2 partitions and the third will get 1. 
    If the concurrency is greater than the number of TopicPartitions, the concurrency will be adjusted down such that each container will get one partition.

 翻译如下:
假设提供了6个TopicPartitions,并发性为3;每个容器将得到2个分区。对于5个TopicPartitions, 2个容器将获得2个分区,第三个容器将获得1个分区。如果并发性大于TopicPartitions的数量,那么并发性将被调低,这样每个容器将获得一个分区。 


http://www.niftyadmin.cn/n/5536444.html

相关文章

AI会取代人力?

前言 AI是在帮助开发者还是取代他们&#xff1f; AI&#xff08;人工智能&#xff09;在软件开发和更广泛的科技领域中&#xff0c;既是一个强大的辅助工具&#xff0c;也是一个推动行业变革的力量。关于AI是否在帮助开发者还是取代他们&#xff0c;这个问题其实涉及到了多个…

k8s-第十一节-Job和CronJob

Job Kubernetes jobs主要是针对短时和批量的工作负载。它是为了结束而运行的,而不是像deployment、replicasets、replication controllers和DaemonSets等其他对象那样持续运行。 Kubernetes Jobs会一直运行到Job中指定的任务完成。也就是说,如果pods给出退出代码0,那么Job…

五.核心动画 - 图层的变换(平移,缩放,旋转,3D变化)

引言 在上一篇博客中&#xff0c;我们研究了一些视觉效果&#xff0c;在本篇博客中我们将要来讨论一下图层的旋转&#xff0c;平移&#xff0c;缩放&#xff0c;以及可以将扁平物体转换成三维空间对象的CATransform3D。 图层变换 图层的仿射变换 在视图中有一个transform属…

TYPE-C转DC转接头方案,ECP5701支持5V、9V、12V、15V、20V电压输出

如今随着这几年的USB-C PD适配器的普及&#xff0c;消费者手上的PD适配器越来越普遍&#xff0c;如何让以前的电源适配器也可以用上PD适配器呢&#xff1f;如此一来以前的电源适配器坏了&#xff0c;就不需要费心费力的寻找相同的适配器进行更换&#xff0c;甚至于只能将整个设…

AI学习指南机器学习篇-K均值聚类距离度量

AI学习指南机器学习篇-K均值聚类距离度量 在机器学习领域中&#xff0c;K均值聚类是一种常用的无监督学习方法&#xff0c;它能够将数据集中的样本划分为K个不同的簇&#xff0c;使得同一簇内的样本相似度较高&#xff0c;不同簇之间的样本相似度较低。而在K均值聚类的过程中&…

FPGA的理解,个人的见解,不一定对

类似于面包板上搭建电路&#xff0c;但是使用的是逻辑单元模块&#xff1b;如加法器&#xff0c;减法器&#xff0c;寄存器等 没有模拟电路的电容&#xff0c;电阻&#xff1b;但是逻辑单元的底层实现&#xff0c;使用MOS管等电路实现电路的开关&#xff1b;从而表示0&#xf…

【国产开源可视化引擎Meta2d.js】快速上手

提示 初始化引擎后&#xff0c;会生成一个 meta2d 全局对象&#xff0c;可直接使用。 调用meta2d前&#xff0c;需要确保meta2d所在的父容器element元素位置大小已经渲染完成。如果样式或css&#xff08;特别是css动画&#xff09;没有初始化完成&#xff0c;可能会报错&…

【HarmonyOS NEXT】鸿蒙如何动态添加组件(NodeController)

NodeController用于实现自定义节点的创建、显示、更新等操作的管理&#xff0c;并负责将自定义节点挂载到NodeContainer上。 说明 本模块首批接口从API version 11开始支持 当前不支持在预览器中使用NodeController。 导入模块 import { NodeController } from "ohos…