主题 : 商业银行数据中心生产网络异常单播泛洪流量监控及防范
千山同一月 万户尽皆春 千江有水千江月 万里无云万里天
级别: 总版主

UID: 998
精华: 0
发帖: 605059
威望: 529688 点
无痕币: 0 WHB
贡献值: 0 点
在线时间: 62612(时)
注册时间: 2008-12-25
最后登录: 2024-05-19

0 商业银行数据中心生产网络异常单播泛洪流量监控及防范

一、背景
近些年来,随着信息技术的迅猛发展,商业银行涉及到经营管理等各领域的活动都依赖信息技术手段来实现,各大商业银行纷纷在总行建立数据中心,以满足不断膨胀的服务器增长需求,如今“两地三中心”、“同城双活大二层数据中心”已经不再罕见。随着网络规模的增长和网络边界的不断延展,网络作为基础设施的一个重要组成部分,在为上层各类业务系统提供各种高速快捷和便利通道的同时,对网络运维人员的要求不断提高,网络管理员的中心也会从日常的变更维护工作,转向更深层次的精细化运维管理服务,未来网络运维管理应当向着而言,众多的网络设备之间互联线路以及设备,网络内部异常流量监控一直困扰着网络管理员。
谀、需求
(1)常规基础监控手段外实现对网络二层广播流量的监控。
光大银行数据中心使用同城双活数据中心技术架构,使用Nexus数据中心系列的7-5-2产品,针对模块化的机房,网络在每一个模块化的机房单元中每个服务器列头柜部署架顶TOR(Top or Rack)交换机,在网络规模的扩张和网络节点的增加的同时,网络二层广播范围增大,从二层的角度看网络运行风险增大。除了采取常规针对网络设备的CPU、内存以及接口流量超阈值等基础监控手段以外,如何监测网络二层健康度给精细化网络运维带来挑战。
(2)未知异常流量给实际业务系统运行带来潜在风险
结合实际的网络运维工作,我们经常会碰到一个场景:多个应用系统业务人员同时反映系统运行缓慢、存在异常,在故障发生前多个系统并未做大的变更改造或者投产,当网络管理员通过网管监控平台SNMP采集各个骨干网络关键节点时,发现网络关键节点流量看并不高,以10Gbps互联线路带宽来看,每个网络接口利用率不到10%,还未触发网络报警策略。这种情况下,传统的做法是在缓慢的服务器上安装抓包工具(如wireshark、tcpdump等),通过工具抓取故障时候的报文进行分析,最后定位到突发的异常流量是由于未知单播泛洪导致的。如何能够有效发现未知单播泛洪,提前监控预警也是网络管理员面临的一个难题。
三、具体原因及解决方案
上述场景中的问题,最后经过网络管理员和系统分析排查,判断为是未知单播泛洪导致,这种流量从网络骨干的关键路径节点看,流量并不大,但是对普通千兆服务器以及现网一些小众且特殊的百兆设备(如客服电话系统等)是致命的,对整个Vlan内的所有服务器都会造成影响。
(1)什么是未知单播泛洪?
在通常情况下,交换机根据收到数据帧中的目标MAC地址,在该交换机MAC地址表中查找对应的交换机接口,并从查找到的交换机接口发出。而MAC地址表则基于交换机收到的数据帧建立,当收到某一MAC源地址发送来的数据帧后,交换机会建立该源MAC对应的MAC地址表条目。但是如果交换机收到发往某一特定目的MAC的数据包,且该MAC地址在交换机上没有任何记录时,交换机无法确定将从哪个接口转发,于是将该数据帧复制,按广播处理,向同VLAN内的所有接口发送该数据帧。上述过程即被称为交换机未知单播泛洪。

图1:未知单播泛洪示意图
(2)产生未知单播泛洪的原因
通常交换机产生未知单播泛洪主要存在有以下几种典型的情况:
第一种情况是数据中心之间网络设计不够合理,不对称路由导致的两侧交换机MAC表异常造成的泛洪;
第二种情况是网络设备软件Bug导致交换机多个板卡之间MAC表同步异常,触发泛洪;
第三种情况是服务器主机上配置不正常(如网卡Arp静态绑定错误等)导致交换机泛洪所有相关数据帧;
第四种情况是其他如大量异常广播攻击等各种原因触发交换机泛洪的现象。
(3)异常未知单播泛洪监控解决思路
基于上面的形成原因,随着运营精细化的需求,光大银行网络运维人员从原理着手、结合实际出现的故障场景,开始研究对交换机的所有vlan异常泛洪流量进行监控,最终选取“监控每个区域Trunk接口流量”的方式实现对区域内二层广播/组播/未知单播泛洪流量的监控,主要的解决思路如下:
① 在每个网络区域核心交换机上配置一个千兆的Trunk接口;
② 将交换机的Trunk口连接和流量采集探针连接;
③ 此时交换机会将网络区域内所有Vlan的泛洪流量发送至流量采集探针服务器;
④ 在探针服务器启用动态基线进行学习,根据运行一段时间的情况得出各个网络区域泛洪流量的基线值,据此设置网管监控告警阀值;
⑤ 当涉及到多个区域的时候,可以将每个区域的Trunk接口使用流量分配交换机进行汇聚,打标记之后,汇总到一个流量采集探针;
⑥ 出现未知单播泛洪时,流量采集探针不仅仅触发告警信息,发送到相关网络人员,且定制自动化的抓包脚本,对触发报警时段的前一定时间段的数据报文进行截取并自动储存数据包;
⑦ 运维人员根据TOP N报警和存储的数据包内容,快速定位故障。


千山同一月 万户尽皆春 千江有水千江月 万里无云万里天
级别: 总版主

UID: 998
精华: 0
发帖: 605059
威望: 529688 点
无痕币: 0 WHB
贡献值: 0 点
在线时间: 62612(时)
注册时间: 2008-12-25
最后登录: 2024-05-19

(4)光大银行同城双中心异常未知单播泛洪部署示意图
光大银行实践基于上面的思路,网络部门实现了针对总行同城双活数据中心的网络异常流量监控系统Cebbank Network Flood Monitor(简称CNFM),具备支撑百个网络安全区域单播泛洪运营监控能力。部署架构如下:

从各区域采集到的二层流量,会自动汇聚到流量采集探针服务器,由探针统一进行基线动态学习调整,结合上线后一段时间内不同区域网络规模及业务流量分类及模型,考虑一些特殊如跨数据中心防火墙HA心跳同步数据,针对性的得到监控阈值,并生成告警策略。
四、结束语
结合目前数据中心机房建设发展面临的问题,考虑到现有数据中心架构的灵活、弹性、可扩展性、以及未来虚拟化和私有云技术的进一步发展,目前来看,商业银行数据中心可能会突破现有同城双活数据中心的结构,引入了一些诸如OTV等技术,将数据中心扩展到三个及以上。对于网络管理人员来说,为避免单播泛洪流量未来在多个中心内转发,防止影响面扩大,同时节省多中心间的三层广域网链路带宽,网络二层异常流量监控系统可以根据网络架构随时进行调整,不断调优,实现对复杂二层环境下的有效异常流量监控,做到潜在隐患提早预防、提前发现、避免业务影响,保证业务平稳运行。
Total 0.046904(s) query 4, Time now is:05-19 22:02, Gzip enabled 粤ICP备07514325号-1
Powered by PHPWind v7.3.2 Certificate Code © 2003-13 秋无痕论坛