|
网络故障自愈系统
一、系统简介:
随着网络应用的日益普及,网络日趋大型化且日趋复杂,网络管理的难度也越来越大。如何保证网络系统7*24小时全天候不间断平稳运行,如何迅速预测和排除网络中可能出现的各种问题,已经成为网络管理员最为关注的普遍问题。
作为拥有完全自主产权的新一代网络管理软件,本系统集强大的功能、简洁易用的界面、简便快捷的操作于一身,为局域网、广域网上各种网络设备(交换机及路由器)提供全面深入的性能监测和故障自愈功能。
本系统通过采集目标网络设备自身的流量数据(xFlow, SNMP, IpAccounting等)进行综合分析与判断,以快速地捕捉定位网络设备的故障点或故障隐患,并通过联动机制,自动对目标网络设备进行故障点的屏蔽与修复工作,以达到对网络系统平台故障的及时发现与快速自愈性修复的目标。
该系统将为中小型企业信息化系统的低成本地稳定运行提供可靠的保驾护航的能力,同时也是中国计算机网络管理领域内新型网管理念的一次有益的尝试。
二、功能模块:
本网络自愈系统可细分为以下几个模块:
1. 实时监控模块:
包括实时CPU负载监控、实时网络设备内存监控、实时xFlow流量(pps及bps)、实时连能性测试、实时SNMP流量(pps及bps)、实时IpAccounting流量(pps及bps);

(NetFlow实时流量示例图)

( SNMP 实时流量示例图 )
2. 历史流量模块:包括历史CPU负载、历史xFlow流量分析、历史SNMP流量分析、历史IpAccounting流量分析;

( 路由器CPU历史流量示例图 )
(Netflow单IP历史流量示例图)

(SNMP单端口历史流量示例图)
3. 流量综合分析模块:可对历史xFlow流量数据进行分析,可定义用户组及IP群,可根据产生各种时间长度及精度的历史流量排序图及报表;
?
4. 设备无关性流量采集模块:对不支持xFlow的网络设备,或当目标设备完全瘫痪而无法提供流量信息时对链路层及网络层抓取实时流量功能,并对所获取的流量信息 进行了仿NetFlow格式的转换、存储、分析与判断功能;
?
5. 故障自愈模块:对目标设备的CPU负载数据、SNMP流量信息、NetFlow流量信息、IPAccounting流量信息自动进行定时采样、轮巡及数据分析,均给出目标设备当前的健康
情况(健康检查表),并提供了目标设备当前所有重要的数据信息(设备健康指数、出口带宽、收发数据包前5名、带宽占用前5名等);有异常情况发生时,自动报出异常IP、协议端口、物理端口
等信息,并提供了相关的处理及优化建议; 在网管人员授权的前提下,可自行对网络设备的异常流量 及行为进行自愈性处理,要求自愈时间少于60秒。
 ( 自愈阀值设定示例图 )
 (自愈系统巡检示例图)
三、系统特色:
1. 本系统与传统的网关式包过滤以及监听式产品不同,它主要是基于网络设备自身提供的流量数据报告进行分析与判断,并依此对该网络设备的运行状态及异常应用与流量进行捕捉、报警及自愈性修复等操作。所以本系统不会因自身效率或故障等问题造成对目标网络系统的影响;
2. 以目标网络设备主路由器的 CPU 负载数据作为判定网络系统正常与否的判定标准,并首次提出了 “ 设备健康指数 ” 的概念,结合目标设备自身产生的各种流量数据信息,采用多种手段与目标设备进行联动,可准确、快速、自动地定位及排除故障,具有极强的实用性和可操作性,大大减轻了网管人员的工作强度;
3. 对中小规模的网络系统,提出了 “ 主路由器 + 主交换机 ” 的网管模式,使位于网络第三层和第二层的设备之间充分融合与联动,为网管人员提供了更多的定位及排除故障的手段,极大提高了网管人员的工作效率。此种网管新模式的提出, 在国内外网络管理领域尚属首次 ;
4 .真正的无人值守自愈系统:本系统不间断地对目标网络设备的运行状态及流量数据进行分析与判断,从中捕捉到可疑 IP 地址及其行为(包括协议、端口号、数据包数大小等等信息),并在网管人员授权的前提下, 在目标设备的主要技术指标( CPU 负载、 PPS 、 bps 等)达到设定阀值时,通过 SNMP 或是 TELNET 等技术手段直接访问目标设备,对故障 IP 或物理端口进行屏蔽,从而实现网络系统快速自愈以及无人值守式自愈的目标。
5 .故障自愈速度快、成功率高:
* 故障检出率及自愈率 100%;
* 单 IP 级的自愈处理时间实测最大值 6.95 秒;
* 单交换机端口级的自愈处理时间实测最大值 9.88 秒;
*CPU 负载阀值级无人值守式自愈时间实测最大值 28.10 秒;
* 单 IP 阀值级无人值守式自愈时间实测最大值 20.87 秒;
* 交换机端口阀值级无人值守自愈时间实测最大值 31.63 秒;
(上述测试值摘自 “ 国家应用软件产品质量监督检验中心 ” 对本系统的测试报告)
6 . 本系统采用硬件黑匣子方式,易于安装与管理。
四、成功案例
北京科教网是一个城域网,承担着北京区各个 8638 化器大厦等几百家高新企业网络接入服务,网络经常受到各类病毒、蠕虫,甚至 DDOS 的攻击,以往出现问题后,通过传统的运维手段,需要一个多小时,才能定位故障及排除故障,严重影响了网络服务的质量。
2007 年 6 月,正式在北京科教网网络平台上全面部署,据不完全统计,从 2007 年 10 月至 2008 年 1 月,在 “ 北京科教网 ” 网络平台上共利用本系统快速定位出 ( 发生故障时 60 秒内 ) 较致命的攻击达 80 余次,进行授权式自愈性恢复达 60 余次; 系统均在 60 秒内自动对故障 IP 进行了屏蔽处理,从而避免了对整个网络平台业务的影响。
经过一年多实际业务环境的运行证明,本系统已经完全具备了在各种网络平台上尤其是中等规模的网络平台上运行的能力,其全面流量数据分析、快速定位故障点、无人值守式故障自愈等等功能,极大地改变了先前较为被动的网管人员的工作模式,现在已成为“北京科教网网络 ” 运维中强有力的运维手段。
五、研发里程碑:
1 . 2006 年 9 月,成为北京市科学技术委员会“软件产业发展专项”的“科研攻关”项目;
2 . 2008 年 1 月,一次性通“国家应用软件产品质量监督检验中心”验收测试;
3. 2008 年 3 月,通过了市科委课题的验收;
4 . 2008 年 8 月,经过市高新技术创中心认证,获“北京市科技企业技术创新资金”。
|