ping 在网络诊断中的作用

当你没有复杂的网管工具（比如锐捷的RILL）可以使用时，ping 往往是网络工具箱中不可或缺的一件利器。

今天遇到了一件复杂的网络故障，体现在故障现象上是随机出现。当出现网络波动时业务会转圈，出现业务卡顿。程序报错五花八门，一时很难判断故障原因。

因为故障现象有随机性，在一台电脑上只是偶尔出现，不好捕捉。刚开始只能通过故障现象判断可能的原因。一开始只在一个院区反馈有问题，于是判断可能是院区专线出了问题。后来故障现象在多个院区陆续出现，于是找运营商排查三条院区专线，运营商反馈没发现专线异常。

在多个核心交换机间 ping 包也没发现丢包，核心的CPU、内存负载也都正常，交换机上也没报错。当故障越来越频繁，最终引起了高层注意。增加人手对故障定位分析，此时调整思路将问题聚焦到核心业务上，对四台核心服务器进行长 ping 观察。

使用 vmping 同时对多个关键点位进行长 ping 发现部分服务器有丢包情况。大概 1000 个包会有 50 来个数据包在传输过程中丢掉了。相反另一部分服务器非常稳定，一个包都没丢。

当出现丢包时，业务表现为程序卡顿、转圈。之所以出现随机性，是服务器采取了负载均衡模式。业务会随机分配到丢包的那台服务器上。

此时先通过负载均衡将业务调整到不丢包的服务器上后，临时解决业务卡顿的问题。普通终端访问服务器是先经过网关再到服务器。通过终端 ping 服务器，发现服务器丢包。但绕过网关，直接在两台服务器间长 ping ，并没有发现服务器有丢包现象。此时排除掉服务器的嫌疑，问题出在网关上。

网关具有SDN功能，本身由主备两个节点组成。对网关做了主备切换后所有 ping 包恢复正常不再丢包。事后故障节点的网关由厂家打包日志送修。

这次的故障排查具备偶然性，一开始怀疑网关有问题时就联系了厂家检查设备。厂家工程师在第一时间并没有发现设备有问题，后来通过排除法实锤了故障现象就是网关导致的，厂家才被迫承认。

在故障分析中，可观测性很重要。一开始没有使用 vmping 工具，使用的是系统自带的 ping 工具。自带的 ping 工具没有日志功能，也没有颜色告警。ping 几百个包如果没抓到出错日志就放弃了，而 vmping 可保存从第一使用的所有 ping 日志。最后提交日志时，整个日志有 70M，包含了几年前的所有时间的 ping 的结果。并且在无人值守时，当出现网络波动 vmping 会记录网络断开的时间点，以及网络恢复的时间点，这对还原网络事件非常有帮助。

全文完。