文章最后更新时间2025年08月02日,若文章内容或图片失效,请留言反馈!
当你没有复杂的网管工具(比如锐捷的RILL)可以使用时,ping 往往是网络工具箱中不可或缺的一件利器。今天遇到了一件复杂的网络故障,体现在故障现象上是随机出现。当出现网络波动时业务会转圈,出现业务卡顿。程序报错五花八门,一时很难判断故障原因。因为故障现象有随机性,在一台电脑上只是偶尔出现,不好捕捉。刚开始只能通过故障现象判断可能的原因。一开始只在一个院区反馈有问题,于是判断可能是院区专线出了问题。后来故障现象在多个院区陆续出现,于是找运营商排查三条院区专线,运营商反馈没发现专线异常。在多个核心交换机间 ping 包也没发现丢包,核心的CPU、内存负载也都正常,交换机上也没报错。当故障越来越频繁,最终引起了高层注意。增加人手对故障定位分析,此时调整思路将问题聚焦到核心业务上,对四台核心服务器进行长 ping 观察。使用 vmping 同时对多个关键点位进行长 ping 发现部分服务器有丢包情况。大概 1000 个包会有 50 来个数据包在传输过程中丢掉了。相反另一部分服务器非常稳定,一个包都没丢。当出现丢包时,业务表现为程序卡顿、转圈。之所以出现随机性,是服务器采取了负载均衡模式。业务会随机分配到丢包的那台服务器上。此时先通过负载均衡将业务调整到不丢包的服务器上后,临时解决业务卡顿的问题。普通终端访问服务器是先经过网关再到服务器。通过终端 ping 服务器,发现服务器丢包。但绕过网关,直接在两台服务器间长 ping ,并没有发现服务器有丢包现象。此时排除掉服务器的嫌疑,问题出在网关上。网关具有SDN功能,本身由主备两个节点组成。对网关做了主备切换后所有 ping 包恢复正常不再丢包。事后故障节点的网关由厂家打包日志送修。这次的故障排查具备偶然性,一开始怀疑网关有问题时就联系了厂家检查设备。厂家工程师在第一时间并没有发现设备有问题,后来通过排除法实锤了故障现象就是网关导致的,厂家才被迫承认。在故障分析中,可观测性很重要。一开始没有使用 vmping 工具,使用的是系统自带的 ping 工具。自带的 ping 工具没有日志功能,也没有颜色告警。ping 几百个包如果没抓到出错日志就放弃了,而 vmping 可保存从第一使用的所有 ping 日志。最后提交日志时,整个日志有 70M,包含了几年前的所有时间的 ping 的结果。并且在无人值守时,当出现网络波动 vmping 会记录网络断开的时间点,以及网络恢复的时间点,这对还原网络事件非常有帮助。 推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
https://ZhouSa.com
还没有评论,来说两句吧...