知乎专栏 |
每个企业都意识到监控工作的重要性,但80%企业的监控工作仍然处在监控的初级阶段。
什么是初级阶段呢?
什么是中级阶段呢?
什么是高级阶段呢?
监控从初级向中继再到高级,是转被动到主动,从人工到自动化。
监控不应该局限在硬件与服务,还应该延伸到业务领域。
你在百度上搜索监控多半是一些开源或商业软件的安装配置指南。这些文章中会告诉你怎样监控CPU、内存、硬盘空间以及网络IP地址与端口号码。
开源软件无非是 Nagios, Cacti, Mrtg, Zibbix ..... 这些软件在我的电子出书 《Netkiller Monitoring 手札》 中都有详细说明安装与配置方法。
商业软件也有很多如 SolarWinds, Whit's Up,PRTG ......
所有的服务器,网络设备,监控你都做了,那么按照我上面的监控分级,你处于监控的那个阶段?
监控都有哪些手段跟方式呢?
中心卫星站为中心站点向外放射,通常是通过IP地址访问远程主机,实施监控,常用方法是SNMP,SSH,以及各种Agent(代理),方式是请求然后接收返回结果,通过结果判断主机状态。
Monitor Server | ------------------------------- | | | [Web] [Mail] [Database]
以监控服务器为中心,星型散射连接其他监控节点,没有什么优点,缺点是Web跟Mail节点的通信没有监控
一级一级的向下探测,寻找故障点,需要在各个节点埋探针。
Monitor Server | ------------------------------- | | | V V V | | | [Web] ---> [Cache] ---> [Database] \ ^ `------------------------|
首先监控服务器跟星型拓扑一样监控,再让Web节点去访问Cache节点然后返回监控结果,以此类推,让Cache节点访问Database, 让Web访问Database节点。
将所有业务逻辑都逐一模拟一次,任何一个环节出现问题,立即发出警告。
这里主要监控服务是否可用,可以检查软件的工作情况,涉及测试环节。
通过自动化测试工具辅助监控,例如模拟鼠标点击,键盘输入,可以监控图形界面程序与网页程序。
Windows 监控可以通过 Windows Automation API实现,通过程序控制,能够模拟人工操作软件,实现操作匹配返回结果实现自动化监控
Web页面监控的方案就太多了,比较经典的是Webdriver衍生出的各种工具Selenium - Web Browser Automation最为出名。我通过这个工具模拟用户操作,例如用户注册,登陆,发帖,下单等等,然后匹配返回结果实现自动化监控与报警
通过数据分析,将故障消灭在故障发生前。举一个例子,开发人员忘记设置redis 时间,虽然程序一直完好工作,但redis内存不断增长,总一天会出现故障。
我们通过采集redis状态信息,分析一段时间内数据变化发现了这个问题。