上午 8:40,公司运维监控群弹出告警:办公网出口带宽利用率骤升至 97%,多位同事反馈网页加载转圈、业务系统响应迟缓(虽早禁用抖音等娱乐平台,但基础办公网络已受影响)。从事政企网络运维 8 年,这类 “突发卡顿” 不算罕见,本打算按常规流程排查链路拥堵。没曾想 9:30,市场部、财务部接连紧急反馈:OA 系统登不上、ERP 无法提交单据、客户对接的业务平台直接超时,核心业务全面停摆,一场实打实的网络危机已然爆发。

排查过程复盘:

一、系统化排障:从现象到范围的精准收敛

1. 分层诊断:按 “终端 - 内网 - 边界 - 外网” 逐步验证

公司网络拓扑为 “办公终端 - 接入交换机 - 核心 IRF 双机 - 深信服防火墙 - 深信服 AC - 互联网”,结合 OSI 七层模型,按 “先易后难” 原则展开测试,统一用ping IP -t长 ping+-l 1024大包测试,确保结果更贴近实际业务场景:

640-YZJv

  • 终端与接入层:同部门(同 VLAN)两台电脑互 ping,3000 包无丢包,延迟稳定在 2-4ms,抖动<3ms;登录接入交换机查看端口状态,无 CRC 错误、无端口 Down 告警,排除网线松动、网卡故障、接入交换机异常;

  • 内网跨段:测试财务 VLAN(192.168.5.0/24)ping 技术部 VLAN(192.168.8.0/24),丢包率 63%,延迟忽高忽低(200-1500ms),部分时候直接 “请求超时”,初步判断核心交换到防火墙之间出了问题;

  • 边界设备:ping 防火墙内网接口(10.0.0.1),1000 包丢包 81%,延迟峰值超 2000ms,还出现大量乱序报文;

  • 外网连通:ping 114.114.114.114、8.8.8.8,均无稳定回应,丢包率 100%,外网彻底断联。

综合测试结果,故障范围精准锁定在 “防火墙及内网侧接入链路”。

640-xdmN

2. 深度溯源:聚焦防火墙异常,排除硬件问题

远程登录核心 IRF 交换机(用 CRT 通过 SSH 登录,波特率 9600),做进一步验证:

  • 核心交换机端口检查:查看防火墙上联端口(GigabitEthernet1/0/20)流量统计(display interface GigabitEthernet1/0/20),入方向数据包速率达 11.2 万 pps,远超日常业务峰值(平时也就 8000-10000pps),但无帧丢失、无错误码,排除物理链路故障;

  • 跨设备连通性:核心交换机 ping 防火墙内网口,丢包率 75%,延迟抖动剧烈,但display arp | include 10.0.0.1显示 ARP 表项正常,排除地址解析问题;

  • 防火墙管理测试:尝试通过 Web 界面(HTTPS 443 端口)登录,报ERR_CONNECTION_REFUSED;用 SSH 登录,超时失败;但tcping 10.0.0.1 443显示端口开放(响应时间 2.8ms),说明防火墙硬件没坏,大概率是系统进程阻塞或资源耗尽。

640-rXdp640-RgQM

3. 常规修复:重启、冷启动均失效

按深信服防火墙运维手册,先尝试常规修复:

  • 强制重启:通过 Console 口发送reboot命令,重启后 5 分钟内,网络短暂恢复,随后又卡顿;

  • 冷启动:按标准流程下电,等 15 分钟再上电(彻底释放 CPU、内存资源),结果故障依旧;

  • 配置回滚:用display config对比,近期没做过配置变更,排除误操作导致的策略冲突;检查 License,也没过期或资源限制。

常规操作全没用,结合过往处理 DDoS 攻击的经验,果断启用公司刚部署 3 个月的 NTM 全流量回溯系统 —— 这是政企运维中排查复杂流量问题的 “硬家伙”,果然没让人失望。

640-dNXW

二、硬核溯源:全流量分析锁定攻击 “真凶”

1. 流量画像:异常主机疯狂发 SYN 包

NTM 系统支持 10Gbps 线速采集、90 天全流量存储,打开后数据一目了然:

  • 异常主机定位:“流量 TOP10” 里,IP:192.168.3.123(一台业务应用服务器)格外扎眼,出方向流量达 960Mbps,连接数峰值 28572,而正常业务连接数也就 300-500,流量和连接数都严重超标;

  • 攻击行为解析:该主机 1 小时内对外发送 TCP SYN 报文 302 万次,平均每秒 840 多个,目标 IP 覆盖美国、日本、德国等 10 多个国家,且全是 23 端口(Telnet),源端口从 1024 到 65535 随机变化 —— 典型的 SYN_Flood 拒绝服务攻击特征;

  • 协议诊断:TCP 协议异常占比 99.8%,SYN_ACK 响应率为 0(正常应>95%),防火墙的 TCP 半连接数已达最大阈值(16384),彻底被 “堵死”。

640-bjpP

640-mKDe

640-kdsd

640-NvLL

640-zqXQ

2. 多源验证:确认服务器感染僵尸病毒

  • 防火墙日志佐证:用display logbuffer | include 192.168.3.123查看日志,内网口 eth4 接收数据包量暴增到 11.7 万 pps,CPU 负载高达 99.6%,还持续报 “会话表满溢”(Session Table Full),和 NTM 数据完全对得上;

  • Wireshark 抓包:在核心交换机镜像端口用tcpdump抓包(tcpdump -i GigabitEthernet1/0/20 host 192.168.3.123 -w attack.pcap),导出后用 Wireshark 分析,全是无状态的 SYN 报文,没有应用层数据,就是僵尸网络控制的 “肉鸡” 在发起攻击;

640-gPlh

  • 断网测试:拔掉防火墙内网口的网线,5 分钟后,防火墙 CPU 负载降到 4%,Web 管理界面能正常登录 —— 实锤了,故障就是这台服务器攻击导致的。

最终查明:IP:192.168.3.123 的业务服务器感染了 Mirai 变种僵尸病毒,被黑客控制后发起 SYN_Flood 攻击。核心交换机的包转发速率(240Mpps)远高于防火墙(10Mpps),海量攻击包让防火墙处理不过来,直接瘫痪,进而导致全网断联。

640-oUCW

三、闭环处置:45 分钟恢复网络,深层加固防复发

1. 紧急隔离:快速切断攻击源

登录核心交换机,执行interface GigabitEthernet1/0/15; shutdown(该端口连接异常服务器),直接断开服务器的网络连接;同时在防火墙临时配置 ACL:acl number 3000; rule deny tcp source 192.168.3.123 0 destination-port eq 23,双重阻断攻击流量,避免扩散。

2. 边界加固:给防火墙 “减负”

  • 启用 SYN Flood 防护:在防火墙配置anti-ddos syn-flood cookie enable(SYN Cookie 机制),把 SYN 半连接超时时间设为 30 秒,单 IP 最大 SYN 连接数限制为 500;

  • 流量限速:针对内网所有主机,配置出方向 TCP 23 端口的流量限速(qos car outbound acl 3001 cir 1024 kbps),防止再出现类似攻击;

  • 日志上报:把防火墙日志同步到 SIEM 平台,设置异常流量告警阈值,后续一旦出现高并发 SYN 包,立即弹窗提醒。

3. 服务器重构:根除安全隐患

  • 病毒查杀:用卡巴斯基企业版全盘扫描,清除 Mirai 变种病毒及关联恶意进程(botnet_mirai.exe),修复被篡改的tcpip.sys系统文件;

  • 系统重装:格式化系统盘,重新安装 Windows Server 2019,打上最新安全补丁(KB5030310、KB5030219);

  • 安全加固:设置 16 位混合密码(大小写 + 数字 + 特殊符号),启用账户锁定策略(5 次错误登录锁定 30 分钟),彻底关闭 Telnet 服务(sc config telnet start= disabled),用 firewalld 只开放业务必需的 8080、3306 端口;

  • 数据恢复:从异地备份服务器(公司配置 “每日增量 + 每周全量” 备份)恢复业务数据,用 MD5 校验确保数据完整,没有丢失。

整套操作下来,只用了 45 分钟,网络就恢复正常:核心业务系统访问延迟<10ms,丢包率 0%,外网出口带宽利用率回落至 18%,同事们能正常登 OA、用 ERP,客户对接的业务平台也恢复了响应。

四、运维复盘:政企网络安全要 “防患于未然”

这次故障是典型的 “服务器弱防护导致病毒感染,进而引发全网瘫痪”,给政企运维提了 3 个关键启示:

1. 排障要 “系统化 + 靠工具”

政企网络拓扑复杂,不能盲目重启设备,要按 “终端 - 内网 - 边界 - 外网” 分层排查,用数据说话;NTM 全流量回溯、Wireshark、tcping这些工具是 “救命稻草”,能快速定位异常,避免走弯路 —— 这也是政企运维必备的 “硬技能”。

2. 安全防护要 “全流程闭环”

  • 事前防御:服务器不能图方便用弱密码(这次就是 admin/123456 被暴力破解),要启用强密码 + 账户锁定,关闭 Telnet、FTP 等冗余服务,按 “最小权限原则” 配置账户;

  • 事中监测:部署 NTM、SIEM 等系统,实时监控流量异常,尤其是高并发 SYN 包、异常端口访问,早发现早处置;

  • 事后处置:建立标准化 SOP,明确隔离、加固、恢复的步骤,同时异地备份必须到位 —— 政企业务数据不能丢,这是底线。

3. 运维要从 “救火” 变 “防火”

作为政企运维,不能只等着故障发生再处理,要主动优化:

  • 升级防护设备:把防火墙从 10Mpps 升级到 100Mpps,提升 DDoS 攻击抵御能力;

  • 部署终端安全:给所有服务器装 EDR,实时查杀病毒、自动修复漏洞;

  • 加强培训:给业务部门管理员做安全培训,重点讲密码安全、服务器配置规范,避免因人为疏忽留漏洞。

政企网络安全无小事,一台服务器的弱防护,就可能导致全网业务停摆,损失不可估量。作为运维人员,既要懂技术、会用工具,更要建体系、防未然 —— 这才是政企运维 “技术大牛” 的核心价值,也是守护企业信息化生命线的关键。

原文链接:全流量回溯NTM-实战