在数据中心不停运转过程中,不可避免的会出现各种问题,比如说网络发生信息不通,网页不能浏览这些连通性故障时,故障显现很容易检查和定位,解决起来并不难。但是如果网络是通的,只是网速比较慢,这样的"软"故障,往往令人头痛,束手无策。光润通小编教大家一个快速定位问题解决问题的思路,这样就可以帮助我们在日常维护中有条不紊地找到问题的真实原因。
第一、检查设备CPU占用率
数据中心的设备少说几百个,多则上万个,我们不可能人工一个个去检查CPU。因此我们先要确认哪个业务变慢了,再确定这个业务在数据中心里需要经过哪些设备,然后检查这些设备的CPU占用率。如果我们有网软软件,通过设置CPU阈值,则可以轻松监控所有设备的CPU占用率,迅速发现CPU异常设备。光润通小编提醒大家,一般来说,如果设备CPU占用率在40%以内,基本没有什么问题,如果超过60%,那么建议你最好看一下设备是不是受到了网络攻击,有时网络攻击不仅会影响网速变慢,甚至会中断业务。网管可以监控可疑的端口,网络流量异常的这一段时间,通过网络流量变化会看到突起突落,明显的人为痕迹。根据对以上可疑现象的分析,初步定位网络业务中断事故是人为攻击造成,证明的确是有网络攻击。
第二、日志信息和其它异常信息
现在电子设备的可维护性都比较好,运行时如果出现端口下降,配置错误,硬件问题,这些简单的故障都会打印出非常明确的异常记录,提示用户设备哪里出了问题,便于客户解决问题。对于广播流量较多的数据中心,要注意设备的端口流量是不是有异常,是不是出现了网络环路,网络环路是在数据中心经常发生的网络故障。主要是由于设备故障、STP/RRPP等二层环路协议失效、人为错误配置导致的。这类问题通过观察端口的流量很好排除。因此,要检查这些设备的日志和异常信息记录。
第三、利用ping来检验业务是否正常
ping是用来诊断网络故障最简单的方法,现在网络上流行的Xping、Multiping、网管软件等都是基本ping功能实现的,通过ping业务沿路的各个设备就可以迅速判定故障设备。一般ping的结果基本会显示出哪个设备可能存在网络问题。
第四、检查端口双工的状态。
服务器的网卡、网络设备端口、防火墙端口等设备的工作方式可以为全双工或者半双工。
当服务器、交换机的工作状态不匹配,比如说服务器、工作站网卡被设置为全双状态,而交换机等却工作在半双工时,就会产生大量碰撞帧和一些FCS校验错误帧,访问速度会变得超级慢。因此从服务器上拷贝一个100Mb的文件可能需要30分钟,所以网速变慢也要检查下设备端口双工是不是存在不一致的问题。
第五、检查网线、光纤、光模块这些互连器件的问题
网线的制作方式对网络传输速度的影响是非常大的,如果不按照正规的标准制作网线,那么来自网线自身的背景噪音以及内部串扰就会降低网络传输速度。还有光纤和光模块如果质量不佳,容易产品大量的错包,影响网速。还有的光模块收发功率不稳定,导致传输的数据出现问题,这些故障都是容易影响网速慢的最常见的原因。在数据中心里,几乎天天都会有更换网线、光纤或光模块的工作。这些都是易消耗的器件。目前光润通品牌的光网卡、光模块,在数据中心拥有80%的占有率,产品全部军工级品质、支持热插拔、兼容不同各大品牌交换机,像北京电视台,二炮,航天五院,航天三院等都用到了光润通的GRT产品。
第六、端口UP/DOWN问题
如果出现了端口的UP/DOWN,自然会引起业务时断时续,网速就慢。造成端口出现UP/DOWN的原因也可能是多方面的。比如:光纤架、跳线架有问题,链路质量不好;网线,光纤出了问题;设备两端配置速率双工不一致等等都会造成端口的UP/DOWN,一般的设备端口出现了UP/DOWN都会有记录,或者在网管上有记录,这样用户就可以通过检查记录,迅速排除掉故障。
第七、对比测试
通过业务测试。比如玩传奇游戏卡,玩其它游戏没有问题,那一般是传奇服务器的问题。另外,为何明确故障问题,还可以在上游设备上的一个业务端口下FTP本地网络的一个大文件,在本地设备上的一个业务口下同时FTP同一网站的同一电影文件,比较下载速度,立刻可以知道本地设备有没有问题。
第八、检查是否应用服务器是否有病毒
蠕虫、红色代码、蓝色代码、尼姆达等病毒,可使计算机运行变慢,造成网络堵塞。比如说蠕虫病毒对网络速度的影响非常严重,危害性极大。这种病毒导致被感染的用户只要一上网就不停地往外发邮件,成百上千的这种垃圾邮件有的排着队往外发送,有的又成批成批地被退回来堆在服务器上,造成服务器繁忙或者数据中心网路拥塞,网速变慢。所以,需要在数据中心内部署防火墙设备,在服务器上安装杀毒软件,并保持实时更新。周期性地检查服务器是否有中病毒的情况。
数据中心网速慢是一个比较复杂问题,随着网络规模的不断扩大和应用的复杂,网络安全问题越来越多,这类问题也越来越不好分析。对于出现网速变慢的故障时,可以采用以上的八个步骤去一一排查,在绝大多数情况下,都可以解决问题。如果通过这些步骤仍找不出异常的地方,那就需要专业的技术人员深入分析了,可能需要资深的网络专家或者设备厂家的工程师进一步深入排查。