(设备选型・策略配置・合规验收・运营优化)

一、项目背景与定级

作为某省核心科技基础设施与国家级超算算力枢纽,某省国家级超算中心承载科研计算、政务云服务、产业孵化三大核心业务,承担着支撑区域重大科研项目攻关(如航空航天模拟、生物医药研发)、政务数据集中处理(含民生服务、公共安全等敏感数据)、数字产业创新赋能的重要使命。中心硬件配置达到行业领先水平,具备 300 PFlops 峰值算力、120 PB 海量存储容量及 2 Tbps 高速出口带宽,服务覆盖全省 120 余家科研机构、50 余个政府部门及 300 余家重点企业,其安全稳定运行直接关系到科研数据机密性、政务服务连续性、产业经济安全性及社会公共利益。

依据《信息安全技术 网络安全等级保护定级指南》(GB/T 22240-2019)相关要求,结合业务重要性、数据敏感性及潜在影响范围,经严格定级评审,中心核心业务系统被确定为三级等级保护对象,科研数据平台定为二级等级保护对象,统一纳入 “一个中心、三重防护” 的等级保护框架体系。项目团队高效推进合规备案工作,于 2025 年 10 月一次性通过某省公安厅网络安全等级保护备案,备案编号为 3304-2025-00347,为后续安全防护体系的系统化建设奠定了坚实的合规基础。

二、总体技术路线

(一)国产化优先战略,筑牢自主可控底座

坚持 “自主可控、安全可靠” 的核心原则,核心软硬件均选用通过国家信息安全产品认证(CCRC)及原创性测评的信创产品,涵盖 CPU、操作系统、安全设备等关键环节,整体信创适配比例不低于 85%。通过构建全栈国产化技术体系,有效规避供应链安全风险,为超算中心安全防护提供自主可控的技术支撑。

(二)软件定义安全(SDS)架构,实现弹性动态防护

创新采用 “安全资源池 + SDN 控制器” 的软件定义安全架构,打破传统安全设备的物理边界限制,将分散的安全能力进行池化管理与统一调度。通过 SDN 控制器实现安全策略的动态编排与快速下发,将新策略部署周期从天级压缩至 15 分钟,大幅提升安全响应效率,满足超算中心业务动态变化与弹性扩展的安全需求。

(三)零信任安全叠加,构建三元可信体系

针对三级核心系统的高安全需求,引入零信任安全理念,结合微隔离技术与动态访问控制机制,建立 “人 - 机 - 数” 三元可信认证体系。基于 “永不信任、始终验证” 的核心思想,对每一次访问请求进行身份认证、权限校验与环境评估,实现细粒度的访问控制,有效抵御内外部网络攻击,保障核心业务与数据安全。

(四)全生命周期运营,保障体系持续有效

建立 “架构设计 - 策略配置 - 实战演练 - 优化迭代” 的全生命周期运营机制,通过常态化攻防演练、漏洞闭环管理、安全态势监测,推动安全防护体系从 “合规达标” 向 “实战有效” 持续进化,确保防护能力与业务发展、威胁演变同频迭代。

三、设备选型与性能测算

(一)核心设备选型清单

安全域

关键设备

国产化型号

核心指标

数量

备注

安全区域边界

下一代防火墙

华为 USG12000-F 系列

吞吐量 3 Tbps,并发连接 2.4 亿

4 套

双活集群部署,支持 SM2/SM3/SM4 国密算法,保障边界防护高可用

入侵检测 / 防御

天融信 TopIDP 9100

100 Gbps 深度检测,支持加密流量解密

4 套

与防火墙联动实现威胁自动封禁,精准抵御网络入侵行为

上网行为管理

深信服 AC-18000

识别 6000 + 应用,支持 IPv6 审计

2 套

满足 180 天日志留存合规要求,实现上网行为全生命周期审计

安全计算环境

主机 EDR

奇安信天擎终端安全

支持鲲鹏 + 麒麟平台,防勒索内核加固

1.2 万 License

与 SOC 平台实时联动,快速响应终端安全事件,实现异常隔离

堡垒机

齐治 JumpServer 企业版

支持 RDP/SSH/VNC 录像,三权分立

2 套

支持 4 位运维 + 8 位外包人员并发操作,实现运维操作全程追溯

数据库审计

安恒 DAS-10000

峰值 20 万 SQL/s,不脱库解析

2 套

支持国密链路加密,保障审计数据传输安全,精准识别数据库风险操作

安全管理中心

SOC 平台

奇安信 NGSOC 鲲鹏版

10 万 EPS 处理能力,内置 2800 + 关联规则

1 套

整合全量安全数据,实现威胁智能分析与研判,一键导出等保合规报告

日志审计

绿盟 LAS 5500

分布式采集,日志哈希防篡改

3 套

存储 180 天日志数据,压缩比达 8:1,兼顾存储效率与数据完整性

漏洞扫描

知道创宇 ScanV 国产版

每周 1 次全量扫描,支持信创主机

1 套

与 ITSM 系统无缝对接,建立 72 小时漏洞闭环管理机制

密码安全

数字证书系统

江南天安 CA v5.0

SM2 根证书,支持双活部署

2 套

为三级系统提供强制双向认证,构建密码安全信任根基

VPN / 零信任网关

渔翁信创 VPN-S5000

IPsec/SSL 国密算法,1 Gbps 吞吐

2 套

作为远程运维唯一合法入口,保障远程访问安全可控

流量溯源

全流量回溯系统

北京派网 NTM 系列

全流量采集与索引,秒级溯源,支持 200Gbps + 吞吐量

2 套

双机热备部署,覆盖三网流量采集,与 SOC 平台联动,强化威胁溯源与故障定位

(二)扩展选型核心建议

结合超算中心高带宽、多场景流量特征及安全溯源需求,新增北京派网 NTM 全流量回溯系统,核心适配价值如下:

  1. 带宽匹配:支持 200Gbps + 单机吞吐量,可满足超算中心 2 Tbps 出口带宽的全流量采集需求,通过多探针部署实现三网物理隔离环境的流量全覆盖;

  2. 能力互补:与现有入侵检测 / 防御设备形成 “防御 + 溯源” 闭环,前者负责实时拦截已知威胁,后者通过全流量留存(支持 90 天 + 原始数据包存储)与秒级溯源,解决未知威胁、隐蔽隧道传输等高级威胁的事后复盘问题;

  3. 运维赋能:支持可视化流量分析与故障定位,无需复杂语法即可快速查询特定 IP、协议、时间窗口的流量数据,大幅提升超算中心 Slurm 调度系统、Lustre 文件系统的故障排查效率。

(三)选型避坑核心要点

  1. 带宽冗余设计:安全设备带宽预留需不低于业务峰值的 1.5 倍,本次选用 3 Tbps 吞吐量防火墙,既完全覆盖当前 2 Tbps 业务峰值,又预留 50% 冗余空间,可从容应对未来业务增长与流量突发场景。

  2. 会话容量精准测算:基于超算中心 1.2 万节点规模,按照 “会话容量≥在线用户数 ×50” 的测算标准,2.4 亿并发连接的防火墙配置可充分满足多用户、高并发的访问需求,避免因会话容量不足导致业务卡顿。

  3. 国产化认证双重校验:所有安全设备必须同时具备《国家信息安全产品认证》及《原创性测评》双证书,从源头保障设备合规性,避免因认证不全导致合规验收时被判定为 “高风险”,影响项目整体进度。

  4. 扩展产品兼容性:新增安全产品需支持与现有 SOC 平台(奇安信 NGSOC)、日志审计系统(绿盟 LAS 5500)的接口对接,确保数据互通与联动处置,避免形成 “信息孤岛”。

四、策略配置实战

(一)网络架构安全设计

采用 “三网物理隔离” 的经典安全架构,将核心生产网、管理网、公网服务网进行物理层面的隔离部署,彻底阻断跨网络攻击路径,保障各网络域独立安全运行;针对三级核心系统的高安全需求,额外增设 “可信计算区”,部署 200 台 TPM 2.0 加密服务器,用于密钥托管、设备身份远程证明及应用启动度量,构建硬件级可信根基,从源头防范供应链攻击与恶意篡改。

(二)边界防护策略

  1. 白名单最小化管控:严格遵循 “最小权限原则”,仅开放 443(HTTPS)、22(SSH)、80(HTTP)、30030(Slurm 调度)、1812(LDAP 认证)等业务必需端口,全面阻断非授权端口访问,最大限度缩减攻击面。

  2. 违规流量精准拦截:通过应用识别技术,精准识别并禁止 P2P 下载、虚拟货币矿池、Tor 匿名访问等违规流量,既减少无效带宽占用,又防范相关流量带来的安全风险。

  3. 敏感数据防泄漏:建立敏感数据识别规则库,通过正则表达式对身份证号、银行卡号、科研课题编号等核心敏感数据进行实时监测与过滤,一旦命中规则立即触发告警并截断数据传输,严防敏感信息外泄。

(三)入侵检测防护配置

构建 “通用规则 + 专属规则” 的双层入侵检测体系,内置 12000 + 条通用入侵检测规则,全面覆盖常见网络攻击场景;结合超算中心 HPC(高性能计算)场景特性,定制开发 80 条专属检测规则,重点防护 SSH 暴力破解、Slurm 调度系统提权、Lustre 文件系统异常访问等超算场景特有攻击行为。针对加密流量检测难题,通过部署镜像解密插件,实现对 TLS1.3 国密套件 80% 的解密率,确保加密流量中的威胁可被有效识别。

(四)主机与终端加固

  1. 操作系统深度加固:在麒麟操作系统上启用 SELinux 安全模块与 Seccomp 沙箱机制,限制进程权限与系统调用,关闭 bpf 等非必要系统调用,从内核层面提升操作系统安全性,减少攻击面。

  2. EDR 终端防护策略:配置 U 盘只读权限,防止移动存储设备带来的病毒传播与数据泄露风险;禁用 systemd-userdbd 等非必要服务,降低系统运行风险;启用勒索软件行为检测模型,实现 24 小时实时监测,精准识别勒索软件感染行为并快速响应。

  3. 容器安全加固:超算中心科研计算场景广泛使用容器化部署(如 Docker、K8s 集群),新增容器安全加固策略:①部署容器安全管理平台,对镜像进行漏洞扫描与恶意代码检测,禁止使用高危漏洞镜像;②启用容器网络隔离,限制容器间跨命名空间访问,防止容器逃逸引发的横向扩散;③配置容器运行时权限最小化,禁用容器特权模式,减少攻击面。

(五)运维审计机制

  1. 三权分立管控:堡垒机严格执行 “先认证、后授权、再审计” 的运维管理流程,将运维操作的发起、审批、审计权限分离,杜绝越权操作。

  2. 全流程追溯:对 RDP/SSH/VNC 等所有运维会话进行实时录像,对 rm -rf、dd、mkfs 等高危操作设置二次复核机制,确保高危操作可管控;在运维录像中嵌入场景、时间、用户、IP 等防篡改水印,保障审计数据的真实性与完整性,为安全事件追溯提供可靠依据。

(六)数据安全防护

  1. 数据分级分类管理:按照数据重要性与敏感性,将中心数据划分为 L3(科研原始数据)、L2(结果数据)、L1(公开数据)三个等级,实施差异化安全防护策略,确保核心数据重点保护。

  2. 存储加密防护:对 L3 级科研原始数据采用 SM4-XTS 国密算法进行全盘加密,密钥存储于硬件安全模块(HSM),有效防范存储设备被盗或非法访问导致的数据泄露。

  3. 高效灾备保障:针对每日 1 TB 的数据变化量,配置 10 Gbps 专用灾备链路,建立 “实时备份 + 定期演练” 的灾备机制,实现 RPO(恢复点目标)≤15 分钟,确保数据在遭受破坏后可快速恢复。

  4. 跨境数据传输防护:针对科研合作中的跨境数据传输场景,新增防护策略:①建立跨境数据传输白名单,仅允许经审批的科研项目相关 IP、域名进行跨境数据交互;②通过派网 NTM 对跨境流量进行全量留存与实时监测,识别异常传输行为(如大文件分片传输、非工作时间高频传输);③对跨境传输的敏感数据(L3 级科研原始数据)强制加密,采用 SM4 算法进行传输加密,确保数据机密性。

(七)密码应用规范

  1. 强身份认证:三级核心系统强制启用 “USBKey(SM2 算法)+ 指纹” 双因子认证,替代传统单一密码认证,大幅提升身份认证安全性,杜绝身份冒用风险。

  2. 国密算法适配:VPN 隧道采用 ECC-SM2-WITH-SM4-SM3 国密算法套件,所有关键数据传输链路均采用国密算法加密,符合国家密码应用合规要求。

  3. 应用启动度量:Slurm、Lustre 等关键应用启动时调用 TPM 2.0 进行完整性度量,验证应用程序未被篡改后再允许运行,防范 “黑屏” 劫持等供应链攻击行为。

(八)安全管理中心运营

  1. 合规自动化管理:SOC 平台内置 15 个等保 2.0 合规检查剧本,可自动识别 “三级系统日志未集中收集”“权限配置不合理” 等合规缺陷,并自动生成整改工单,推动合规问题闭环管理。

  2. 威胁快速响应:接入全球威胁情报数据,建立 “情报预警 - 快速处置 - 复盘优化” 的威胁响应机制,接到 IoC(入侵指标)后 5 分钟内完成防火墙封禁、EDR 终端隔离、管理员邮件告警的联动处置,最大限度降低威胁影响范围。

  3. 运营可视化呈现:每月自动生成《等保 2.0 运行报告》,量化展示漏洞闭环率、补丁及时率、告警误报率等核心运营指标,实现安全运营状态可视化、可度量,为安全决策提供数据支撑。

  4. 扩展产品联动配置:①派网 NTM 与 SOC 平台联动:将全流量日志、异常流量告警同步至奇安信 NGSOC,结合 EDR 终端告警、防火墙拦截日志,构建 “流量 - 终端 - 边界” 的多维度威胁关联分析;②流量回溯策略配置:针对核心业务端口(如 30030 Slurm、数据库端口)、跨境传输链路,配置全数据包留存(留存周期 90 天),非核心链路留存元数据(留存周期 180 天),平衡存储成本与溯源需求;③自定义流量告警规则:基于超算中心业务特征,定制 Slurm 调度系统异常流量、Lustre 文件系统高频访问、科研数据违规外发等专属告警规则,提升威胁识别精准度。

(九)新兴风险防护

针对 AI 生成式攻击(如 AI 生成恶意代码、钓鱼邮件),新增防护策略:

  1. 升级邮件网关的 AI 检测能力,识别 AI 生成的钓鱼邮件(如虚假科研合作邀约);

  2. 在 EDR 终端防护中新增 AI 恶意代码检测模型,防范 AI 生成的免杀勒索软件;

  3. 定期通过 AI 工具模拟攻击演练,检验防护体系对新兴威胁的抵御能力。

五、合规验收与测评

(一)测评机构与方法

为确保测评结果的权威性与公正性,本次等级保护测评委托公安部第三研究所(国测编号:2025-3304-03)执行,采用 “工具扫描 + 渗透测试 + 物理核查” 的全方位、立体化测评方式:

  1. 工具扫描:综合运用 OpenVAS、Nessus、长亭 X-Ray 等多款专业安全检测工具,对网络设备、服务器、数据库、终端等全量资产进行无死角漏洞扫描,全面排查潜在安全隐患。

  2. 渗透测试:组建 4 人专业红队,模拟 APT(高级持续性威胁)攻击手法,进行为期 28 天的持续性渗透测试,重点检验安全体系的抗攻击能力与应急响应水平,最终发现 3 个高危漏洞、12 个中危漏洞,所有漏洞均在 72 小时内完成闭环整改。

  3. 物理核查:对机房物理环境进行全面核验,包括 8 道门禁系统的访问控制有效性、180 天视频监控留存完整性、UPS 电源 30 分钟放电保障能力、1.8Ω 接地电阻合规性等关键指标,确保物理环境安全符合等级保护要求。

(二)测评得分结果

测评维度

整改前得分

整改后得分

提升要点

安全物理环境

86.2 分

92.3 分

优化门禁权限管理、完善应急供电保障

安全通信网络

83.5 分

89.7 分

补充跨境数据防护、优化网络隔离策略

安全区域边界

87.8 分

91.4 分

新增全流量溯源、强化加密流量检测

安全计算环境

85.1 分

90.8 分

新增容器安全加固、完善主机漏洞闭环

安全管理中心

89.3 分

93.5 分

实现多维度数据联动、优化合规自动化剧本

总体得分

86.7 分

91.5 分

全维度防护能力提升,远超合格线

经综合测评,某省国家级超算中心安全防护体系完全满足等保 2.0 三级防护要求,以 91.5 分的优异成绩顺利通过测评,标志着中心安全防护能力达到国内同类超算中心先进水平。

六、建设经验与复盘

(一)国产化选型:性能实测是核心,避免 “参数虚标” 陷阱

国产化建设并非简单的 “低价替代”,而是 “自主可控 + 性能达标” 的双重保障。项目初期测试阶段,曾选用某国产防火墙产品,但其国密性能仅为标称值的 60%,无法满足超算中心高带宽、高并发的业务需求。项目团队及时调整选型策略,更换为华为 USG12000-F 系列防火墙后,SM4 算法吞吐量从 600 Gbps 提升至 2.8 Tbps,完全覆盖 2 Tbps 出口带宽需求。实践证明,国产化设备选型必须经过严格的性能实测与场景适配测试,重点验证关键指标的实际表现,避免因参数虚标导致安全防护 “短板”。

(二)日志集中化:规范先行再集中,提升数据价值转化

日志集中收集与分析是等保 2.0 的核心要求,也是安全运营的重要基础。项目初期,因中心 200 余个业务系统日志格式不统一、字段不规范,导致 SOC 平台日志解析成功率仅为 65%,大量日志数据无法发挥安全分析价值。针对这一问题,项目团队制定统一的 syslog 日志模板,明确时间、主机、进程、等级、消息五大核心字段,完成全系统日志格式规范化改造。改造后,SOC 平台日志解析成功率提升至 98%,为安全威胁分析、合规审计提供了可靠的数据支撑。经验表明,日志集中化建设必须坚持 “先规范、后集中” 的原则,通过标准化提升数据质量,才能充分发挥日志的安全价值。

(三)安全防护:攻防演练验成效,推动体系动态优化

攻防演练是检验安全防护体系有效性的 “试金石”,也是发现安全隐患、优化防护策略的重要手段。2025 年 8 月,项目组织红蓝对抗演练,蓝队利用 Slurm 22.05 版本缓冲区溢出 0day 漏洞成功获取 root 权限,暴露出版本管理滞后、漏洞修复不及时的安全隐患。针对演练暴露的问题,项目团队优化建立 “漏洞管理 + 灰度补丁” 流程,通过自动化漏洞扫描、分级处置、灰度部署补丁等措施,将补丁部署窗口从 30 天缩短至 7 天,显著提升了系统漏洞修复效率。实践证明,只有通过常态化、实战化的攻防演练,才能及时发现安全体系的薄弱环节,推动安全防护从 “被动防御” 向 “主动防御” 转变,提升体系的动态防御能力。

(四)扩展产品落地:聚焦 “互补性” 与 “兼容性”

引入派网 NTM 全流量回溯系统的实践经验表明,超算中心新增安全产品需满足两大核心要求:一是能力互补,聚焦现有体系短板(如全流量溯源、跨境监测);二是兼容性优先,提前完成与现有平台的接口测试,避免后期集成成本过高。项目中通过提前与 SOC 厂商确认接口协议(如 Syslog、REST API),实现 NTM 告警与 SOC 工单的自动联动,将威胁响应时间从原来的 30 分钟缩短至 15 分钟。

(五)新兴风险应对:提前布局,避免 “被动整改”

针对容器逃逸、AI 生成式攻击等新兴风险,复盘发现:超算中心作为技术密集型场景,新兴技术应用早、场景复杂,需建立 “风险预判 - 技术储备 - 试点落地” 的提前布局机制。例如,在容器安全方面,通过提前调研科研场景容器使用规模,优先在核心计算集群部署容器安全管理平台,避免因容器漏洞导致的安全事件;在 AI 攻击防护方面,定期跟踪 AI 安全威胁动态,同步升级防护产品的 AI 检测能力,实现 “威胁演变 - 防护迭代” 的同频跟进。

七、结语

某省国家级超算中心等保 2.0 建设项目的成功落地,不仅实现了安全防护体系的合规达标,更构建起一套 “自主可控、弹性高效、持续进化” 的安全防护生态。项目的实践充分证明,等级保护 2.0 建设并非简单的 “设备堆叠”,而是 “架构设计 - 策略配置 - 持续运营” 的全生命周期闭环管理。

通过牢牢把握 “国产化适配筑牢根基、性能实测保障实效、实战化演练优化提升” 三大核心要点,项目仅用 6 个月便高效完成从备案到测评通过的全流程建设,创造了大型超算中心等保 2.0 落地的高效范例。该项目形成的技术路线、选型标准、配置规范与运营机制,为国内同类超算中心、大型数据中心及关键信息基础设施的等保 2.0 落地提供了可复制、可推广的实践样本,为我国关键信息基础设施安全防护体系建设贡献了宝贵经验。

未来,中心将聚焦三大优化方向:一是深化 AI 安全技术应用,构建 “AI 检测 + 自动化响应” 的智能防护体系;二是扩展国产化安全产品覆盖,推动核心业务场景 100% 信创适配;三是完善跨机构安全协同机制,与科研合作单位、安全厂商建立威胁情报共享与应急联动,以更坚实的安全保障支撑科研创新与数字经济高质量发展。