说说系统故障暴露出的三个运维短板

昨天，给大甲方做运维方面的安全检查，发现近半年多个重要系统发生故障停机，平均停机时间30多分钟。

这些故障五花八门，看上去好像都是随机不可控“故障”，比如服务器中间件和数据库对接出问题了、异常增大的访问量把服务器压垮了、金蝶中间件出问题、装达梦数据库客户端占满服务器内存、应用服务器内存不够用、数据库密码过期、东方通中间件内存溢出等等。这些故障直接导致服务重启、系统反应变慢，甚至浏览器跳出 502、500 错误，好多业务操作都没法正常进行。

所以，甲方大人也没有说啥，认为这个是不可控的技术故障。

不过，咱们明白啊，这个明显是运维工作没做好，存在三大短板：

一、监控预警不到位

类似应用服务器的内存使用率其实是要建立预警机制的，我做通保就经常会查这样一个条款——“应定义业务水平阈值，能够对业务及应用服务水平进行检测，并具备当服务水平降低到预先规定的阈值时进行告警的功能”

这个业务水平就包括了CPU、内存、带宽，当使用量超过阈值发告警通知，现在云厂商都用云监控提供这类告警了。

而这家大甲方的运维团队每次都是内存耗竭发生故障了才能发现，被动救火，分数只能打59分了。

除此之外，数据库密码过期的问题其实也要预警的，实在不行写个脚本每天跑跑，把需要监控的参数都过一遍，也能避免因数据库密码过期而产生的停机。（真要是一些大电商平台、停机的成本多高啊，真要是数据库密码过期导致的，运维人员还能保住饭碗吗？）

二、资源适配没做好

比如有的运维人员装达梦数据库客户端之前，连它会占用多少资源都没评估，也没预留足够的内存。装了完成任务了还不删除，结果时间一长就把资源占满了；另外，对那些非日常业务接口的访问量，也没做限流控制，导致访问太多把系统压过载。这些你说是经验问题还是技术问题，还是规范问题。分数也只能打59分了。

三、运维流程不规范

数据库密码啥时候到期，没放进定期检查的清单里；中间件处理大文件时，内存释放的策略也没优化，结果故障反复出现，处理还总是滞后。

那如果我们想把手里的工作做到60分以上，应该怎么做呢？其实就是对应这三个运维短板，各个击破之。