从 0 到 1 搭建超算中心安全体系:超算中心等保 2.0 实践中的 5 个关键步骤
一、写在前面:为什么 “先合规、再运营” 是超算中心唯一可行的节奏
超算中心作为承载高性能计算、科研数据处理和关键业务运行的核心基础设施,天然属于三级及以上等保对象,未按规定完成备案即上线运行,将面临强制停机与高额罚款的严厉处罚;其服务的科研 / 工业用户往往携带敏感数据与高危模型,一旦发生数据泄露事件,造成的损失足以抵消数年算力运营收入;等保 2.0 标准已将 “云计算 / 大数据 / 高性能计算” 全面纳入扩展要求,传统 IDC 的安全建设模板完全无法适配超算中心的复杂场景。
综上,将 “拿证” 目标拆解为 5 个可并行推进的工程里程碑,采取边建设、边测评、边上线的实施策略,是兼顾合规要求与业务连续性的唯一可行打法。

二、5 个关键步骤(时间轴可压缩到 6 个月以内)
三、落地节奏(可直接复用的甘特图)
四、详细实施指南
(一)定级与备案(Day 0-30)
1. 定级原则
唯一资产单元:以 “调度域” 为基本单位,将 Login 节点 + 计算节点 + 并行存储 + 作业调度软件整合为一个定级对象;
最大风险法:若存在 “科研用户可上传自定义代码 + 中心同时托管重要科研数据” 的情况,直接定为三级等保对象;
多业务拆分:公共算力区(三级)、专属行业云(可升级为三级增强)、管理办公区(二级)分别完成备案,避免 “一刀切” 导致防护过当或不足。
2. 工作流程
资产梳理 → 业务 / 数据 / 用户三维分析 → 威胁建模(STRIDE + 科研场景专属威胁库) → 专家评审 → 公安网安备案
3. 交付模板清单
T1-01《HPC 场景定级报告(三级).docx》
T1-02《资产台账(自动扫描版).xlsx》:附带自主开发的 hpc-asset-scanner.py 脚本,可自动识别 Slurm、PBS、Lustre、GPFS、IB 交换机型号并输出国标编码
T1-03《专家评审意见表(含签字页).pdf》
4. 常见坑
遗漏 “GPU 池” 在资产清单外,导致测评时被判定为 “隐藏资产”,直接列为高风险;
定级报告未明确 “数据出境场景”,2025 年科研 VPN 专项抽查将被扣 15 分。
(二)差距分析(Day 15-45)
1. 技术差距自动化扫描
工具链:
主机层:OpenSCAP + 超算专用加固基线(基于 CIS HPC 1.2.0 新增 38 条规则)
容器层:kube-bench + gVisor escape checker
网络层:IB-network-audit(自研工具,可对 Subnet Manager 进行 11 项弱配置检测)
密码层:Tongsuo / GM/T 0024 国密算法合规扫描器
输出:差距分析矩阵(122 项控制点 / 360 项测评项),自动映射至责任部门与预算编号

2. 管理差距速赢清单
必须一次性补齐的 4 份核心制度:
《科研数据分类分级管理制度》
《超算中心账号生命周期管理规范》
《供应链安全评估指南》(含 InfiniBand 交换机、GPU 卡固件安全评估)
《应急预案(含演练记录表单)》
3. 高风险 TOP10(2025 版)
Login 节点开放 22 端口全网可达,未做源地址限制;
Slurmctld 以 root 权限运行且未启用 auth/munge 认证;
Infiniband 默认 SMP 密钥全为 0,任意节点可伪装 SM;
Lustre 服务端未启用 Kerberos 认证,数据裸奔传输;
GPU 节点启用 NVLink+Passthrough,未配置防逃逸策略;
容器共享宿主内核,未启用 seccomp & AppArmor 安全机制;
日志留存时间不足 6 个月,且未做哈希防篡改处理;
堡垒机未覆盖 Windows 图形作业(VNC/RDP)运维审计;
远程运维 VPN 仅采用单因子认证;
机房重要区域(冷冻站、UPS 室)未安装红外入侵检测设备。
4. 交付模板
T2-01《差距分析报告(122 项).xlsx》
T2-02《高风险整改责任矩阵.mpp》:可直接导入 MS Project,自动排定工期

(三)整改建设(Day 30-120)
1. 整体架构:四横三纵安全域设计
四横防护:物理环境 → 网络 → 平台 → 数据
三纵管控:身份鉴别 | 访问控制 | 安全审计
分区安全等级:
红区:金融 / 政务专属裸金属,三级增强防护;
黄区:公共 HPC 算力区,三级防护;
绿区:办公及仿真可视化区,二级防护;
灰区:运维管理区,采用隔离单向光闸防护。
2. 网络层整改(关键指标:东西向流量 100% 可回溯)
采用 Spine-Leaf+VXLAN EVPN 架构,通过 ArgoCD+GitOps 实现控制器管理,确保策略版本可审计;
Infiniband 独立部署 Fabric,与管理网物理隔离,SM 密钥改为 16 字节随机值并按季度轮换;
RDMA 流量强制启用 IPSec 加密(RoCEv2+AES-GCM),性能损耗控制在 3% 以内(实测 100Gbps→97Gbps);
微隔离:基于 Calico+Policy Recommendation Engine,自动学习 MPI 通信矩阵,生成访问控制白名单。
3. 计算层整改
节点加固:操作系统从 CentOS 8 升级至 OpenEuler 22.03 LTS,自带国密算法栈;
调度器安全:升级 Slurm 至 21.08 + 版本,启用 jwt 插件,用户令牌有效期≤12 小时;
GPU 防逃逸:
启用 NVIDIA vGPU 的 “调度时间片限制”,禁止独占 Passthrough;
内核加载 nvidia-vgpu-vfio 模块时强制校验签名;
采用 gVisor 作为默认运行时,配置–platform=systrap –network=sandbox 参数。
4. 存储层整改
Lustre 2.15+Kerberos+SCM(Secure Checksum Mode)组合,实现端到端 AES256-GCM 加密;
密钥管理:采用三节点国密 HSM(卫士通 SJJ1918)作为 KMS,通过 KMIP 协议为 Lustre 提供 KEK 密钥;
数据分级存储:科研原始数据(L4)、中间结果(L3)、公开成果(L1)分别存储于不同 OST,配合 SELinux sVirt 强制访问控制。
5. 密码与密钥体系
全链路国密适配:VPN 网关用 SM4-CBC 替代 AES,SSL 代理采用 SM2 双证书,性能下降控制在 5% 以内;
密钥生命周期管理:生成→分发→使用→轮换→销毁全流程在 HSM 内完成,外部仅留存索引;
合规证据留存:每季度导出《密钥使用日志签名文件》,便于测评机构直接验证。
6. 平台层(容器 & CI/CD)
镜像安全:通过 Harbor+Trivy+Cosign 实现镜像强制签名 + 漏洞基线检测(HIGH 及以上漏洞禁止拉取);
DevSecOps 集成:在 GitLab CI 中嵌入 SAST、DAST、IaC 扫描工具,Merge Request 未通过安全检测则无法编译;
多租户隔离:基于 K8s 命名空间 + ResourceQuota+PodSecurityStandard(restricted 模式)实现资源与安全隔离。
7. 数据安全
分类分级:采用教育部《科研数据分级指南》+ 中心补充条款,划分为 5 级 23 类;
脱敏 / 加密:原始数据脱敏采用 FPE(Format Preserving Encryption)算法,保证浮点精度不变;
备份策略:遵循 3-2-1 原则,本地双副本 + 异地 1 副本,备份数据同步加密,每季度开展一次恢复演练。
8. 安全管理平台(SOC 2.0)
日志采集:覆盖 21 类设备 / 应用,单日日增量 1.8TB,采用 Loki+S3 冷存方案,成本下降 40%;
关联规则:内置 38 条 HPC 场景专用规则,例如 “同一用户 5min 内提交> 1000 个作业且调用 GPU 比例 > 90%” 判定为疑似挖矿行为;
SOAR 自动化响应:与 Slurm、OpenStack、NetBox API 对接,实现 “威胁确认→暂停用户作业→隔离节点→创建工单” 全自动化处理,平均响应时间 3 分钟。
9. 预算与人力配置(2024 年真实项目数据)
软硬件投入:防火墙 4 台、IDS 2 台、堡垒机 2 台、HSM 3 台、微隔离授权 2000 核、SOC 许可 2000 资产,合计约 680 万元;
服务投入:等保咨询 + 测评 + 整改督导,合计 120 万元;
人力配置:安全团队 8 人(1 名总监 + 2 名网络安全工程师 + 2 名平台安全工程师 + 1 名合规专员 + 1 名审计专员 + 1 名运维工程师),运营期每年人力成本 180 万元。
10. 交付模板 / 脚本
T3-01《网络拓扑与策略矩阵(Visio+Excel)》
T3-02《Slurm 安全加固 playbook.yml》
T3-03《Lustre+Kerberos 一键部署脚本》
T3-04《容器安全基线(OCI 规范版)》
T3-05《密码应用方案(含国密算法选型)》
(四)等级测评(Day 90-150)
1. 机构选择标准
必备资质:具备 CNAS 认证 + 列入网络安全等级保护测评机构推荐目录;
项目业绩:近 2 年至少完成 3 个 “三级 + 云计算 / 大数据扩展” 场景测评项目;
团队能力:测评团队需具备 IB 网络、Lustre 文件系统、Slurm 调度器任意一项实操经验。
2. 预演(内部测评)
工具:采用公安部三所 2025 版等保 2.0 测评工具箱 + 自研 HPC 插件;
指标要求:控制点评分≥90 分,高风险项 = 0,一般风险项≤5 项;
压力测试:在业务高峰时段(CPU 利用率 > 85%)同步开展渗透测试,验证测评不影响科研作业运行。
3. 正式测评流程
现场启动会 → 文档审核(42 份核心文件) → 配置核查(120 项关键配置) → 技术测试(9 大项) → 综合评议 → 出具报告
4. 技术测试关注点
网络:IB 网络 SM 劫持测试、RoCE IPSec 性能验证、VXLAN 策略逃逸测试;
主机:GPU 直通逃逸测试、CVE-2023-31038(NVIDIA vGPU 越界写漏洞)验证;
应用:Slurm jwt 伪造测试、OpenAPI 未授权访问检测;
管理:堡垒机命令回放验证、4A 审计源完整性核查;
密码:国密算法兼容性测试、密钥归档合规性检查。
5. 整改复测
时间要求:测评结束后 20 个工作日内提交整改报告 + 复测申请;
整改标准:高风险项必须 100% 关闭,一般风险项需提供接受声明;
结果要求:获取《测评报告》+《通过证明》,并在公安网安平台完成备案上传。
6. 交付模板
T4-01《现场测评配合手册(含 60 项截图指引)》
T4-02《高风险项整改报告(样例)》
(五)持续运营与监督(Day 150-∞)
1. 运营模型:PDCA 循环
Plan(规划):制定年度安全规划→Do(执行):日常安全运营→Check(检查):内部审计 + 管理评审→Act(改进):问题整改与优化
2. 关键 KPI(2025 版)
威胁检测时间(MTTD)≤30 分钟、威胁响应时间(MTTR)≤120 分钟;
漏洞闭环率:高危漏洞 24 小时内闭环、中危漏洞 7 天内闭环;
配置漂移率:关键设备≤1%;
证书 / 密钥泄漏事件:0 起;
公安抽查得分:≥90 分。
3. 日常运营清单
每日:SOC 告警筛查、备份任务巡检、密钥签名验证;
每周:漏洞扫描、容器镜像更新、IB 网络 SM 密钥轮换;
每月:红队演练、密码应用评估、科研用户安全培训;
每季度:应急演练、备份恢复演练、管理评审;
每半年:内部审计、供应链安全复审、等保自评;
每年:监督测评、安全规划更新、预算申请。
4. 自动化脚本
scripts/auto-patch-slurm.sh:Slurm 安全补丁热加载(不中断运行作业);
scripts/ib-sm-rotate.py:IB Subnet Manager 密钥一键轮换脚本;
scripts/gpu-escape-scan:基于 eBPF 技术的 GPU 直通逃逸行为检测工具。
5. 交付模板
T5-01《SOC 2.0 运营月报(PPT)》
T5-02《应急预案(含 6 种场景演练记录表)》
T5-03《年度安全规划(Word + 预算表)》
五、附录
(一)资源获取
42 份模板 / 脚本下载地址(GitLab 私有库,需申请专属 token)
(二)参考文献 & 标准
[1] GB/T 22239-2019 信息安全技术 网络安全等级保护基本要求[2] GB/T 25070-2019 网络安全等级保护安全设计技术要求[3] GB/T 28448-2019 网络安全等级保护测评要求[4] 《高性能计算(HPC)安全最佳实践》NIST SP 800-223(Draft)[5] 《科研数据安全分类分级指南》教育部科技司 2024
六、结语
超算中心的安全建设绝非 “买设备堆合规”,而是要将等保 2.0 的 120 个控制点转译为 200 + 可执行的工程任务,并深度嵌入科研业务的生产流程。按照本文提出的 5 大步骤、42 份模板、13 条自动化脚本逐一落地,即可在 6 个月内 “零高风险” 通过三级等保测评,并在未来 5 年的公安监督抽查中持续保持≥90 分的优异成绩 —— 让 “合规” 真正成为超算中心的核心市场竞争力,建成“零信任+国密+防勒索”三认证的超算中心,为科研创新与产业发展筑牢安全底座。