【热点话题】

Java技术干货

Java学习教程

Java学习笔记

Java培训问答

Java培训机构哪些好

Java职场就业

干货!一次kafka卡顿事故排查过程

发布：Java培训
来源：Java教程
时间：2018-05-25 13:52

由于一次功能上线后，导致某数据量急剧下滑，给我们紧张的呢!排查过程也是个学习过程!抛开结果，方法论可供参考～

干货!一次kafka卡顿事故排查过程

1. 确认问题的真实性?

被数据部门告知，某数据量下滑严重，当时即知道问题的严重性。且该问题是在我的功能上线后产生，第一反应就是，我代码哪里写错了? 但是，还得按流程来，通过各种维度数据对比请求量，实际落地量。确认问题!

其实该过程中，我们并没有确认自己的数据量下滑。但是这也脱不了数据下滑的干系。只能进行下一步!

2. 检查代码，找有经验的同学，对比原有功能差异点?

这个步骤其实，是有点盲目的感觉。因为第一步的排查并没有找到足够的证明说明问题出在我们，但是问题在于期间只有我们上过线，所以只能自我反省了。

不过幸好，这过程还真有用，果真发现了自己埋的一个坑，此坑确实会导致该数据量的下滑。赶紧修掉呗!

然后松了一口气，以为搞好了。其实不然，数据量依然上不去。这就尴尬了!

我已经开始怀疑人生，难道代码没发上去?难道线上和本地某个地方不一样?测试环境反复测试正确无误。我真想直接把测试环境代码弄到线上去，哎，算了吧，很多东西是不会以人的意志为转移的，咱们还是理性点!别谋出路吧!

3. 直接坐到dba旁边去吧，让我们随时关注数据量?

自我排查已经救不了自己了，那就上dba那里。麻烦帮我统计下上线后，数据量的变化，结果是没多大差别。心想有可能是时间太短，看不出变化，等会儿再统计吧。依然没有变化!我的神呐，定了锅还在。

大的数据量不行，那我用自己的账号来测试吧，操作完成后，观察数据，发现有时有有时无!额，说不出啥了。

4. 本地调试吧?

原本以为，是线上问题，紧急处理下就好了。然而事实却超出了我的预料，将验证直接交给线上，是对用户的不负责，是对数据的不负责。咱们还是从本地做起吧。

本地调试要走vpn，有点烦，但不管怎么样，还是跑起来了。没问题啊!这尴尬了。

然后，引出下一个议题!

5. 线上环境配置与测试环境不一样?

然后我们努力找出其中的不同点，哪怕是多了一个文件，某个文件的更改时间点不一致，我们都想去试一下!当然了，为了稳妥起见，我们还是不能直接在线上验证的，除非有足够的证据说明线上的配置是有问题的。当然我们最终并没有找到这样的证据，只是将线上的所有东西都搬到测试环境来验证，结果是畅通无阻!

还有一个证明此路不通的理由，之前的配置跑得好好的东西，难道会自己坏掉?不可能吧。此路不通!

6. 实在不行了，只能改代码线上调试?

调试第一步，各自打日志!把之前请求打印不全的地方，加上完整日志，再发一版吧!有了日志，就有证据，但是真的是急中生错啊，日志居然打得不对，将参数打印为了内存地址也真是够了。

日志改好后，测试呗，继续用自己的账号。还是一样，有时能能进有时不能(监控手段为dba起一个临时的kafka消费者，然后将数据拉出来看)!那咋整呢?

难道是有的机器坏了?分配到坏的机器上去的请求就失败，分配到正确机器的上去的请求就正确。然后吭哧吭哧搞了半天的数据验证，曾经以为这是方向，结果又被打回。

7. 不行咱们就抓包吧?

tcpdump，一个网络流抓包神器，lsof助攻一下。

抓包只是为了确认一个问题，客户机器有发送请求到服务端机器，网络流正常运转!然后证明，客户端机器有大量长连接到服务器，数据流发送接收正常(syn)。这至少说明了一点，客户端是没有问题的!那么就还剩一个问题，那就是服务端出问题了!我们坚信，当然要有证据嘛。

同理，我们在服务端机器上进行反向抓包，然后抓到了来自客户端的包，很流畅嘛!额。。。

8. 不行，没有思路了，重启机器吧?

不，我说的是重启服务。最近不是有改动嘛，按理谁改动重启谁。然而这是没有用的，因为之前的几次发布早已重启了n次。那咋整呢。只剩重启服务端，kafka服务了呗，死马当活马医吧!

重启后，验证呗。结果貌似还是发现有成功，有失败!

9. 改异步请求为同步请求?

又没思路了，我不甘心呐，为啥测试环境好好的，到线上就不行了呢?再想想差别在哪里?

得出的结论是，线上并发大，测试环境量无。然后发现这一块代码是由异步线程做的，会不会是这里有问题?

不管了，改成同步请求试试吧。再来一版!

别说，改为同步后，虽然用户请求基本都慢死了，但是发现kafka请求确实存在了。难道真的是因为这个，那我们也不能这么改啊，用户体验是第一位的，为了这事改异步为同步，咱得吃不了兜着走啊。改回来继续其他的吧!

10. 再回测试环境，压测并发?

改还原为异步后，又回到当初有成功有失败境地了。

既然怀疑线上高并发导致，那为什么不在测试环境高并发压测一下呢?用shell脚本快速写了一个循环请求脚本，大量请求到kafka后，并无一丝异常，到此并发问题取消。(for，nohup a.sh > /dev/null 2&>1 &)n 次即模拟n个并发请求

11. 再来细细检查代码吧?

都不知道查了几遍了，但是还是要查啊，不然咋整呢，几个人一起看代码呗!

然而这并没有什么卵用。

12. 抛开用户行为，直接以命令行形式操作请求?

虽然用户行为是最真实的验证，但是也是比较麻烦的验证。

我们就抛开各种中间环节，直接向kafka服务器发起请求!

分两种方式，1 用现在的代码去请求，2 用kafka自带的请求方式请求。结果得到两个不同的结果，用代码的方式请求的数据，没有成功，用kafka自己的请求方式，则毫秒级响应。哎，这是让我又怀疑代码?

13. 已走投无路，让我们再看一眼数据吧?

真的是没有思路了，只能再来看看数据，当打发时间了。

意外就在你想不到的时候发生了。数据已经恢复正常了!我擦!

倒推时间，倒推事件，是由于kafka重启，导致数据回升的。

好吧，问题已经定位，kafka卡顿导致。咱们已经熬不住了，发个结论邮件，就先回去洗洗睡吧!

14. 为什么kafka会卡顿?

这才是问题的根本!只是我们当时已经没有力气再往下搞了!

结论是由于topic请求量过大，而partition过小，导致吞吐量下降。将partition改大之后，终于真正恢复正常!

额，好像做了很多无用功，没办法 !

感谢大家阅读由Java教程分享的“干货!一次kafka卡顿事故排查过程”希望对大家有所帮助，更多精彩内容请关注Java培训机构官网

免责声明：本文由小编转载自网络，旨在分享提供阅读，版权归原作者所有，如有侵权请联系我们进行删除

【免责声明】本文部分系转载，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责，如涉及作品内容、版权和其它问题，请在30日内与我们联系，我们会予以重改或删除相关文章，以保证您的权益！

上一篇：干货!Java后端程序员1年工作经验总结

下一篇： JAVA8 JVM的变化：元空间(Metaspace)

猜你喜欢

查看更多>>

新达内鸿蒙系统培训怎么样

2025-09-26

新达内Java就业培训学多久

2025-09-25

C#和Java哪个更值得学？

2024-07-01

最新文章

深圳java培训学校哪家好

2025-10-28

上海java培训机构哪家最好

2025-10-28

大专生学java好就业吗

2025-10-27

Java开发高端课程免费试学

大咖讲师+项目实战全面提升你的职场竞争力

海量实战教程
1V1答疑解惑
行业动态分析
大神学习路径图

相关推荐

更多

java语言中，char 类型变量是否能保存一个汉字？

java语言中，char 类型变量是否能保存一个汉字？

在 Java 语言中，可以使用 char 类型的变量来存储单个的字符，请问是否能用 char 类型的变量来存储一个汉字呢? 详情>>

2015-10-15

有史以来最牛的一张程序员职业路线图!

有史以来最牛的一张程序员职业路线图!

最近在琢磨程序员到底路在何方，经过不断的自虐和代入，终于在迷雾森林中得图一张，看之豁然开朗。独乐乐不如众乐乐，share了：详情>>

2018-05-22

java中变量和常量有什么区别？

java中变量和常量有什么区别？

在使用 Java 语言进行程序设计时，经常需要用到常量和变量来存储信息。请简单叙述变量和常量有什么区别? 详情>>

2015-10-15

short 和 char 类型的取值范围各是多少？

short 和 char 类型的取值范围各是多少？

在使用 Java 语言进行程序设计时，经常需要使用 short 型和 char 型存储数值，请简述short 型和 char 型的取值范围各是多少? 详情>>

2015-10-15

Java培训问答库

更多>

达内Java学费多少？

目前学Java有前途吗？

靠谱的Java编程就业培训机构

Java编程开发就业班

PHP和Java学哪个？

Java培训学费

更多>

现在学Java费用多少钱？

报班学Java多少钱？

报Java班多少钱？

学习Java得多少钱？

学习Java开发费用

Java就业

更多>

Java程序员就业真的很难吗？

Java就业前景怎么样？

现在Java就业怎么样？

现在Java前景怎么样？

学好Java能干什么？

Java开班时间

北京丨 12月30日
火速抢座
上海丨 12月30日
火速抢座
广州丨 12月30日
火速抢座
兰州丨 12月30日
火速抢座
杭州丨 12月30日
火速抢座
南京丨 12月30日
火速抢座
沈阳丨 12月30日
火速抢座
大连丨 12月30日
火速抢座
长春丨 12月30日
火速抢座
哈尔滨丨 12月30日
火速抢座
济南丨 12月30日
火速抢座
青岛丨 12月30日
火速抢座
烟台丨 12月30日
火速抢座
西安丨 12月30日
火速抢座
天津丨 12月30日
火速抢座
石家庄丨 12月30日
火速抢座
保定丨 12月30日
火速抢座
郑州丨 12月30日
火速抢座
合肥丨 12月30日
火速抢座
太原丨 12月30日
火速抢座
苏州丨 12月30日
火速抢座
武汉丨 12月30日
火速抢座
成都丨 12月30日
火速抢座
重庆丨 12月30日
火速抢座
厦门丨 12月30日
火速抢座
福州丨 12月30日
火速抢座
珠海丨 12月30日
火速抢座
南宁丨 12月30日
火速抢座
东莞丨 12月30日
火速抢座
贵阳丨 12月30日
火速抢座
昆明丨 12月30日
火速抢座
洛阳丨 12月30日
火速抢座
临沂丨 12月30日
火速抢座
潍坊丨 12月30日
火速抢座
运城丨 12月30日
火速抢座
呼和浩特丨12月30日
火速抢座
长沙丨 12月30日
火速抢座
南昌丨 12月30日
火速抢座
宁波丨 12月30日
火速抢座
深圳丨 12月30日
火速抢座
大庆丨 12月30日
火速抢座

零基础学Java

更多>

Java入门学习网站有哪些？保姆级推荐

零基础Java培训需要学习多长时间？

零基础Python和Java学哪个比较好？

Java是什么意思？

Java学习方法汇总

大数据需要学Java吗？

Java培训机构

更多>

自己适不适合Java程序员开发培训？Java程序员好做吗？

宁波Java如何学？有什么技巧？

宁波大学生如何正确选择Java培训机构？

宁波学习Java开发如何选择培训机构？

宁波怎样挑选适合自己的Java培训机构？

宁波怎样选择Java培训机构？

Java推荐栏目

咨询
试听
教程
售后
400-111-8989
合作
lihm@tedu.cn

Java培训常见问题

Java培训机构哪家好

学Java好就业吗

了解达内

南宁

干货!一次kafka卡顿事故排查过程

发布：Java培训
来源：Java教程
时间：2018-05-25 13:52

由于一次功能上线后，导致某数据量急剧下滑，给我们紧张的呢!排查过程也是个学习过程!抛开结果，方法论可供参考～

干货!一次kafka卡顿事故排查过程

1. 确认问题的真实性?

被数据部门告知，某数据量下滑严重，当时即知道问题的严重性。且该问题是在我的功能上线后产生，第一反应就是，我代码哪里写错了? 但是，还得按流程来，通过各种维度数据对比请求量，实际落地量。确认问题!

其实该过程中，我们并没有确认自己的数据量下滑。但是这也脱不了数据下滑的干系。只能进行下一步!

2. 检查代码，找有经验的同学，对比原有功能差异点?

这个步骤其实，是有点盲目的感觉。因为第一步的排查并没有找到足够的证明说明问题出在我们，但是问题在于期间只有我们上过线，所以只能自我反省了。

不过幸好，这过程还真有用，果真发现了自己埋的一个坑，此坑确实会导致该数据量的下滑。赶紧修掉呗!

然后松了一口气，以为搞好了。其实不然，数据量依然上不去。这就尴尬了!

我已经开始怀疑人生，难道代码没发上去?难道线上和本地某个地方不一样?测试环境反复测试正确无误。我真想直接把测试环境代码弄到线上去，哎，算了吧，很多东西是不会以人的意志为转移的，咱们还是理性点!别谋出路吧!

3. 直接坐到dba旁边去吧，让我们随时关注数据量?

自我排查已经救不了自己了，那就上dba那里。麻烦帮我统计下上线后，数据量的变化，结果是没多大差别。心想有可能是时间太短，看不出变化，等会儿再统计吧。依然没有变化!我的神呐，定了锅还在。

大的数据量不行，那我用自己的账号来测试吧，操作完成后，观察数据，发现有时有有时无!额，说不出啥了。

4. 本地调试吧?

原本以为，是线上问题，紧急处理下就好了。然而事实却超出了我的预料，将验证直接交给线上，是对用户的不负责，是对数据的不负责。咱们还是从本地做起吧。

本地调试要走vpn，有点烦，但不管怎么样，还是跑起来了。没问题啊!这尴尬了。

然后，引出下一个议题!

5. 线上环境配置与测试环境不一样?

然后我们努力找出其中的不同点，哪怕是多了一个文件，某个文件的更改时间点不一致，我们都想去试一下!当然了，为了稳妥起见，我们还是不能直接在线上验证的，除非有足够的证据说明线上的配置是有问题的。当然我们最终并没有找到这样的证据，只是将线上的所有东西都搬到测试环境来验证，结果是畅通无阻!

还有一个证明此路不通的理由，之前的配置跑得好好的东西，难道会自己坏掉?不可能吧。此路不通!

6. 实在不行了，只能改代码线上调试?

调试第一步，各自打日志!把之前请求打印不全的地方，加上完整日志，再发一版吧!有了日志，就有证据，但是真的是急中生错啊，日志居然打得不对，将参数打印为了内存地址也真是够了。

日志改好后，测试呗，继续用自己的账号。还是一样，有时能能进有时不能(监控手段为dba起一个临时的kafka消费者，然后将数据拉出来看)!那咋整呢?

难道是有的机器坏了?分配到坏的机器上去的请求就失败，分配到正确机器的上去的请求就正确。然后吭哧吭哧搞了半天的数据验证，曾经以为这是方向，结果又被打回。

7. 不行咱们就抓包吧?

tcpdump，一个网络流抓包神器，lsof助攻一下。

抓包只是为了确认一个问题，客户机器有发送请求到服务端机器，网络流正常运转!然后证明，客户端机器有大量长连接到服务器，数据流发送接收正常(syn)。这至少说明了一点，客户端是没有问题的!那么就还剩一个问题，那就是服务端出问题了!我们坚信，当然要有证据嘛。

同理，我们在服务端机器上进行反向抓包，然后抓到了来自客户端的包，很流畅嘛!额。。。

8. 不行，没有思路了，重启机器吧?

不，我说的是重启服务。最近不是有改动嘛，按理谁改动重启谁。然而这是没有用的，因为之前的几次发布早已重启了n次。那咋整呢。只剩重启服务端，kafka服务了呗，死马当活马医吧!

重启后，验证呗。结果貌似还是发现有成功，有失败!

9. 改异步请求为同步请求?

又没思路了，我不甘心呐，为啥测试环境好好的，到线上就不行了呢?再想想差别在哪里?

得出的结论是，线上并发大，测试环境量无。然后发现这一块代码是由异步线程做的，会不会是这里有问题?

不管了，改成同步请求试试吧。再来一版!

别说，改为同步后，虽然用户请求基本都慢死了，但是发现kafka请求确实存在了。难道真的是因为这个，那我们也不能这么改啊，用户体验是第一位的，为了这事改异步为同步，咱得吃不了兜着走啊。改回来继续其他的吧!

10. 再回测试环境，压测并发?

改还原为异步后，又回到当初有成功有失败境地了。

既然怀疑线上高并发导致，那为什么不在测试环境高并发压测一下呢?用shell脚本快速写了一个循环请求脚本，大量请求到kafka后，并无一丝异常，到此并发问题取消。(for，nohup a.sh > /dev/null 2&>1 &)n 次即模拟n个并发请求

11. 再来细细检查代码吧?

都不知道查了几遍了，但是还是要查啊，不然咋整呢，几个人一起看代码呗!

然而这并没有什么卵用。

12. 抛开用户行为，直接以命令行形式操作请求?

虽然用户行为是最真实的验证，但是也是比较麻烦的验证。

我们就抛开各种中间环节，直接向kafka服务器发起请求!

分两种方式，1 用现在的代码去请求，2 用kafka自带的请求方式请求。结果得到两个不同的结果，用代码的方式请求的数据，没有成功，用kafka自己的请求方式，则毫秒级响应。哎，这是让我又怀疑代码?

13. 已走投无路，让我们再看一眼数据吧?

真的是没有思路了，只能再来看看数据，当打发时间了。

意外就在你想不到的时候发生了。数据已经恢复正常了!我擦!

倒推时间，倒推事件，是由于kafka重启，导致数据回升的。

好吧，问题已经定位，kafka卡顿导致。咱们已经熬不住了，发个结论邮件，就先回去洗洗睡吧!

14. 为什么kafka会卡顿?

这才是问题的根本!只是我们当时已经没有力气再往下搞了!

结论是由于topic请求量过大，而partition过小，导致吞吐量下降。将partition改大之后，终于真正恢复正常!

额，好像做了很多无用功，没办法 !

感谢大家阅读由Java教程分享的“干货!一次kafka卡顿事故排查过程”希望对大家有所帮助，更多精彩内容请关注Java培训机构官网

免责声明：本文由小编转载自网络，旨在分享提供阅读，版权归原作者所有，如有侵权请联系我们进行删除

【免责声明】本文部分系转载，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责，如涉及作品内容、版权和其它问题，请在30日内与我们联系，我们会予以重改或删除相关文章，以保证您的权益！

上一篇：干货!Java后端程序员1年工作经验总结

下一篇： JAVA8 JVM的变化：元空间(Metaspace)

Java开发高端课免费试学

相关推荐

java语言中，char 类型变量是否能保存一个汉字？

java语言中，char 类型变量是否能保存一个汉字？

在 Java 语言中，可以使用 char 类型的变量来存储单个的字符，请问是否能用 char 类型的变量来存储一个汉字呢? 详情>>

2015-10-15

有史以来最牛的一张程序员职业路线图!

有史以来最牛的一张程序员职业路线图!

最近在琢磨程序员到底路在何方，经过不断的自虐和代入，终于在迷雾森林中得图一张，看之豁然开朗。独乐乐不如众乐乐，share了：详情>>

2018-05-22

java中变量和常量有什么区别？

java中变量和常量有什么区别？

在使用 Java 语言进行程序设计时，经常需要用到常量和变量来存储信息。请简单叙述变量和常量有什么区别? 详情>>

2015-10-15

short 和 char 类型的取值范围各是多少？

short 和 char 类型的取值范围各是多少？

在使用 Java 语言进行程序设计时，经常需要使用 short 型和 char 型存储数值，请简述short 型和 char 型的取值范围各是多少? 详情>>

2015-10-15

达内教育联系电话

电话：400-996-5531

Copyright 2023 Tedu.cn 京ICP备08000853号-56

京公网安备 11010802029508号

达内时代科技集团有限公司版权所有

注：学员信息+企业信息均来自达内教育内部CRM系统真实统计

课程适用人群：成人