从 0 到 1 搭建超算中心安全体系：超算中心等保 2.0 实践中的 5 个关键步骤

一、写在前面：为什么 “先合规、再运营” 是超算中心唯一可行的节奏

超算中心作为承载高性能计算、科研数据处理和关键业务运行的核心基础设施，天然属于三级及以上等保对象，未按规定完成备案即上线运行，将面临强制停机与高额罚款的严厉处罚；其服务的科研 / 工业用户往往携带敏感数据与高危模型，一旦发生数据泄露事件，造成的损失足以抵消数年算力运营收入；等保 2.0 标准已将 “云计算 / 大数据 / 高性能计算” 全面纳入扩展要求，传统 IDC 的安全建设模板完全无法适配超算中心的复杂场景。

综上，将 “拿证” 目标拆解为 5 个可并行推进的工程里程碑，采取边建设、边测评、边上线的实施策略，是兼顾合规要求与业务连续性的唯一可行打法。

二、5 个关键步骤（时间轴可压缩到 6 个月以内）

步骤	目标产出物	关键动作（技术 + 管理双视角）	易踩的坑	交付 “可落地” 模板
1. 定级备案（T0-T+30d）	①《超算中心定级报告》② 公安备案回执	・业务分区 = 定级单元：公共算力区（三级）、专属科研区（三级增强）、管理办公区（二级）・算力即资产：把 Login 节点、调度器、并行存储、Infiniband 交换机全部纳入《资产清单》・专家评审提前排期：对接省计算学会 / 公安三所专家库，10 个工作日内可完成预约	把 “云平台” 误填成 “自建机房”，导致后续测评指标错配	模板 1：HPC 场景三级定级报告（含 GPU 池、并行文件系统描述）
2. 差距分析（T+15d-T+45d）	① 差距分析 Excel（≥120 项）② 高风险清单（≤10 项）	・技术：采用自动化工具运行 “等保 2.0 超算专用基线”，涵盖 Slurm、Lustre、RoCE 网络、容器逃逸等 38 项扩展要求・管理：对标 “一个中心三重防护” 体系，补充日志集中审计、运维 4A、数据分类分级制度等缺失环节	仅扫描主机漏洞，忽略 Infiniband 网络层默认 “无加密” 带来的高风险	模板 2：超算中心高风险 TOP10 清单（含 IB 网络明文传输、GPU 节点无防直通逃逸策略）
3. 整改建设（T+30d-T+120d）	① 安全可研设计② 采购清单③ 实施日志	1) 网络：采用 Spine-Leaf 架构 + 分区隔离，构建 Login/Management/Compute/Storage 四张物理网，IB 走计算专网，管理走 10GbE，实现全流量可回溯； 2) 零信任接入：科研用户需先认证、再通过 VPN 接入、最后完成 MFA 多因素认证，所有 SSH 通道转发至堡垒机，实现命令级审计； 3) 数据加密：Lustre 文件系统采用端到端 AES256-GCM 加密，密钥存储于 HSM 硬件安全模块，满足 “三级加密 + 密钥管理” 双指标； 4) 容器安全：K8s 场景强制启用 gVisor+Seccomp，防范 GPU 直通逃逸风险； 5) 安全管理：上线《超算中心安全运营手册》，每季度开展应急演练，形成 “制度 + 记录” 的闭环管理	将 “采购防火墙” 等同于整改，测评时无法提供 “策略有效性” 验证截图	模板 3：超算中心分区拓扑 + 策略矩阵（Visio 可编辑）
4. 等保测评（T+90d-T+150d）	① 测评报告② 整改复测通过页	・选机构：优先选择含 “高性能计算” 测评业绩的机构（CNAS 附表需包含 HPC 类别）・穿透测试：覆盖 Login 节点→调度器→计算节点→并行存储全路径 11 个攻击面・性能对冲：白天业务时段用 20% 节点开展并发渗透测试，夜间运行 GPU 满负载测试，确保测评不影响业务交付 SLA	测评机构未覆盖 “容器 + IB 网络” 场景，导致测评结论失真	模板 4：测评配合 checklist（含 60 项现场取证截图指引）
5. 持续运营（T+150d 之后）	① SOC2.0 运营月报② 年度监督材料	・7×24 日志汇聚：整合 Slurm 作业日志 + IB 网管日志 + 容器审计日志，对接省平台接口，日志留存 6 个月；・威胁狩猎：每月开展一次 GPU 直通逃逸脚本扫描，每季度组织一次红队演练；・合规年检：第二年证书到期前 90 天启动 “差距快扫 - 整改 - 复测” 闭环流程，将证书续期纳入例行工作	将等保视为一次性项目，测评结束后解散项目团队，导致第二年监督抽查被处罚	模板 5：超算中心 SOC2.0 运营 KPI（MTTD、MTTR、合规配置漂移率）

三、落地节奏（可直接复用的甘特图）

月份	1	2	3	4	5	6
定级备案	█
差距分析	▓	█
整改建设		▓	█	█
测评 / 复测				▓	█
持续运营					▓	█

四、详细实施指南

（一）定级与备案（Day 0-30）

1. 定级原则

唯一资产单元：以 “调度域” 为基本单位，将 Login 节点 + 计算节点 + 并行存储 + 作业调度软件整合为一个定级对象；
最大风险法：若存在 “科研用户可上传自定义代码 + 中心同时托管重要科研数据” 的情况，直接定为三级等保对象；
多业务拆分：公共算力区（三级）、专属行业云（可升级为三级增强）、管理办公区（二级）分别完成备案，避免 “一刀切” 导致防护过当或不足。

2. 工作流程

资产梳理 → 业务 / 数据 / 用户三维分析 → 威胁建模（STRIDE + 科研场景专属威胁库） → 专家评审 → 公安网安备案

3. 交付模板清单

T1-01《HPC 场景定级报告（三级）.docx》
T1-02《资产台账（自动扫描版）.xlsx》：附带自主开发的 hpc-asset-scanner.py 脚本，可自动识别 Slurm、PBS、Lustre、GPFS、IB 交换机型号并输出国标编码
T1-03《专家评审意见表（含签字页）.pdf》

4. 常见坑

遗漏 “GPU 池” 在资产清单外，导致测评时被判定为 “隐藏资产”，直接列为高风险；
定级报告未明确 “数据出境场景”，2025 年科研 VPN 专项抽查将被扣 15 分。

（二）差距分析（Day 15-45）

1. 技术差距自动化扫描

工具链：

主机层：OpenSCAP + 超算专用加固基线（基于 CIS HPC 1.2.0 新增 38 条规则）
容器层：kube-bench + gVisor escape checker
网络层：IB-network-audit（自研工具，可对 Subnet Manager 进行 11 项弱配置检测）
密码层：Tongsuo / GM/T 0024 国密算法合规扫描器

输出：差距分析矩阵（122 项控制点 / 360 项测评项），自动映射至责任部门与预算编号

2. 管理差距速赢清单

必须一次性补齐的 4 份核心制度：

《科研数据分类分级管理制度》
《超算中心账号生命周期管理规范》
《供应链安全评估指南》（含 InfiniBand 交换机、GPU 卡固件安全评估）
《应急预案（含演练记录表单）》

3. 高风险 TOP10（2025 版）

Login 节点开放 22 端口全网可达，未做源地址限制；
Slurmctld 以 root 权限运行且未启用 auth/munge 认证；
Infiniband 默认 SMP 密钥全为 0，任意节点可伪装 SM；
Lustre 服务端未启用 Kerberos 认证，数据裸奔传输；
GPU 节点启用 NVLink+Passthrough，未配置防逃逸策略；
容器共享宿主内核，未启用 seccomp & AppArmor 安全机制；
日志留存时间不足 6 个月，且未做哈希防篡改处理；
堡垒机未覆盖 Windows 图形作业（VNC/RDP）运维审计；
远程运维 VPN 仅采用单因子认证；
机房重要区域（冷冻站、UPS 室）未安装红外入侵检测设备。

4. 交付模板

T2-01《差距分析报告（122 项）.xlsx》
T2-02《高风险整改责任矩阵.mpp》：可直接导入 MS Project，自动排定工期

（三）整改建设（Day 30-120）

1. 整体架构：四横三纵安全域设计

四横防护：物理环境 → 网络 → 平台 → 数据
三纵管控：身份鉴别 | 访问控制 | 安全审计
分区安全等级：
- 红区：金融 / 政务专属裸金属，三级增强防护；
- 黄区：公共 HPC 算力区，三级防护；
- 绿区：办公及仿真可视化区，二级防护；
- 灰区：运维管理区，采用隔离单向光闸防护。

2. 网络层整改（关键指标：东西向流量 100% 可回溯）

采用 Spine-Leaf+VXLAN EVPN 架构，通过 ArgoCD+GitOps 实现控制器管理，确保策略版本可审计；
Infiniband 独立部署 Fabric，与管理网物理隔离，SM 密钥改为 16 字节随机值并按季度轮换；
RDMA 流量强制启用 IPSec 加密（RoCEv2+AES-GCM），性能损耗控制在 3% 以内（实测 100Gbps→97Gbps）；
微隔离：基于 Calico+Policy Recommendation Engine，自动学习 MPI 通信矩阵，生成访问控制白名单。

3. 计算层整改

节点加固：操作系统从 CentOS 8 升级至 OpenEuler 22.03 LTS，自带国密算法栈；
调度器安全：升级 Slurm 至 21.08 + 版本，启用 jwt 插件，用户令牌有效期≤12 小时；
GPU 防逃逸：
- 启用 NVIDIA vGPU 的 “调度时间片限制”，禁止独占 Passthrough；
- 内核加载 nvidia-vgpu-vfio 模块时强制校验签名；
- 采用 gVisor 作为默认运行时，配置–platform=systrap –network=sandbox 参数。

4. 存储层整改

Lustre 2.15+Kerberos+SCM（Secure Checksum Mode）组合，实现端到端 AES256-GCM 加密；
密钥管理：采用三节点国密 HSM（卫士通 SJJ1918）作为 KMS，通过 KMIP 协议为 Lustre 提供 KEK 密钥；
数据分级存储：科研原始数据（L4）、中间结果（L3）、公开成果（L1）分别存储于不同 OST，配合 SELinux sVirt 强制访问控制。

5. 密码与密钥体系

全链路国密适配：VPN 网关用 SM4-CBC 替代 AES，SSL 代理采用 SM2 双证书，性能下降控制在 5% 以内；
密钥生命周期管理：生成→分发→使用→轮换→销毁全流程在 HSM 内完成，外部仅留存索引；
合规证据留存：每季度导出《密钥使用日志签名文件》，便于测评机构直接验证。

6. 平台层（容器 & CI/CD）

镜像安全：通过 Harbor+Trivy+Cosign 实现镜像强制签名 + 漏洞基线检测（HIGH 及以上漏洞禁止拉取）；
DevSecOps 集成：在 GitLab CI 中嵌入 SAST、DAST、IaC 扫描工具，Merge Request 未通过安全检测则无法编译；
多租户隔离：基于 K8s 命名空间 + ResourceQuota+PodSecurityStandard（restricted 模式）实现资源与安全隔离。

7. 数据安全

分类分级：采用教育部《科研数据分级指南》+ 中心补充条款，划分为 5 级 23 类；
脱敏 / 加密：原始数据脱敏采用 FPE（Format Preserving Encryption）算法，保证浮点精度不变；
备份策略：遵循 3-2-1 原则，本地双副本 + 异地 1 副本，备份数据同步加密，每季度开展一次恢复演练。

8. 安全管理平台（SOC 2.0）

日志采集：覆盖 21 类设备 / 应用，单日日增量 1.8TB，采用 Loki+S3 冷存方案，成本下降 40%；
关联规则：内置 38 条 HPC 场景专用规则，例如 “同一用户 5min 内提交> 1000 个作业且调用 GPU 比例 > 90%” 判定为疑似挖矿行为；
SOAR 自动化响应：与 Slurm、OpenStack、NetBox API 对接，实现 “威胁确认→暂停用户作业→隔离节点→创建工单” 全自动化处理，平均响应时间 3 分钟。

9. 预算与人力配置（2024 年真实项目数据）

软硬件投入：防火墙 4 台、IDS 2 台、堡垒机 2 台、HSM 3 台、微隔离授权 2000 核、SOC 许可 2000 资产，合计约 680 万元；
服务投入：等保咨询 + 测评 + 整改督导，合计 120 万元；
人力配置：安全团队 8 人（1 名总监 + 2 名网络安全工程师 + 2 名平台安全工程师 + 1 名合规专员 + 1 名审计专员 + 1 名运维工程师），运营期每年人力成本 180 万元。

10. 交付模板 / 脚本

T3-01《网络拓扑与策略矩阵（Visio+Excel）》
T3-02《Slurm 安全加固 playbook.yml》
T3-03《Lustre+Kerberos 一键部署脚本》
T3-04《容器安全基线（OCI 规范版）》
T3-05《密码应用方案（含国密算法选型）》

（四）等级测评（Day 90-150）

1. 机构选择标准

必备资质：具备 CNAS 认证 + 列入网络安全等级保护测评机构推荐目录；
项目业绩：近 2 年至少完成 3 个 “三级 + 云计算 / 大数据扩展” 场景测评项目；
团队能力：测评团队需具备 IB 网络、Lustre 文件系统、Slurm 调度器任意一项实操经验。

2. 预演（内部测评）

工具：采用公安部三所 2025 版等保 2.0 测评工具箱 + 自研 HPC 插件；
指标要求：控制点评分≥90 分，高风险项 = 0，一般风险项≤5 项；
压力测试：在业务高峰时段（CPU 利用率 > 85%）同步开展渗透测试，验证测评不影响科研作业运行。

3. 正式测评流程

现场启动会 → 文档审核（42 份核心文件） → 配置核查（120 项关键配置） → 技术测试（9 大项） → 综合评议 → 出具报告

4. 技术测试关注点

网络：IB 网络 SM 劫持测试、RoCE IPSec 性能验证、VXLAN 策略逃逸测试；
主机：GPU 直通逃逸测试、CVE-2023-31038（NVIDIA vGPU 越界写漏洞）验证；
应用：Slurm jwt 伪造测试、OpenAPI 未授权访问检测；
管理：堡垒机命令回放验证、4A 审计源完整性核查；
密码：国密算法兼容性测试、密钥归档合规性检查。

5. 整改复测

时间要求：测评结束后 20 个工作日内提交整改报告 + 复测申请；
整改标准：高风险项必须 100% 关闭，一般风险项需提供接受声明；
结果要求：获取《测评报告》+《通过证明》，并在公安网安平台完成备案上传。

6. 交付模板

T4-01《现场测评配合手册（含 60 项截图指引）》
T4-02《高风险项整改报告（样例）》

（五）持续运营与监督（Day 150-∞）

1. 运营模型：PDCA 循环

Plan（规划）：制定年度安全规划→Do（执行）：日常安全运营→Check（检查）：内部审计 + 管理评审→Act（改进）：问题整改与优化

2. 关键 KPI（2025 版）

威胁检测时间（MTTD）≤30 分钟、威胁响应时间（MTTR）≤120 分钟；
漏洞闭环率：高危漏洞 24 小时内闭环、中危漏洞 7 天内闭环；
配置漂移率：关键设备≤1%；
证书 / 密钥泄漏事件：0 起；
公安抽查得分：≥90 分。

3. 日常运营清单

每日：SOC 告警筛查、备份任务巡检、密钥签名验证；
每周：漏洞扫描、容器镜像更新、IB 网络 SM 密钥轮换；
每月：红队演练、密码应用评估、科研用户安全培训；
每季度：应急演练、备份恢复演练、管理评审；
每半年：内部审计、供应链安全复审、等保自评；
每年：监督测评、安全规划更新、预算申请。

4. 自动化脚本

scripts/auto-patch-slurm.sh：Slurm 安全补丁热加载（不中断运行作业）；
scripts/ib-sm-rotate.py：IB Subnet Manager 密钥一键轮换脚本；
scripts/gpu-escape-scan：基于 eBPF 技术的 GPU 直通逃逸行为检测工具。

5. 交付模板

T5-01《SOC 2.0 运营月报（PPT）》
T5-02《应急预案（含 6 种场景演练记录表）》
T5-03《年度安全规划（Word + 预算表）》

五、附录

（一）资源获取

42 份模板 / 脚本下载地址（GitLab 私有库，需申请专属 token）

（二）参考文献 & 标准

[1] GB/T 22239-2019 信息安全技术网络安全等级保护基本要求[2] GB/T 25070-2019 网络安全等级保护安全设计技术要求[3] GB/T 28448-2019 网络安全等级保护测评要求[4] 《高性能计算（HPC）安全最佳实践》NIST SP 800-223（Draft）[5] 《科研数据安全分类分级指南》教育部科技司 2024

六、结语

超算中心的安全建设绝非 “买设备堆合规”，而是要将等保 2.0 的 120 个控制点转译为 200 + 可执行的工程任务，并深度嵌入科研业务的生产流程。按照本文提出的 5 大步骤、42 份模板、13 条自动化脚本逐一落地，即可在 6 个月内 “零高风险” 通过三级等保测评，并在未来 5 年的公安监督抽查中持续保持≥90 分的优异成绩 —— 让 “合规” 真正成为超算中心的核心市场竞争力，建成“零信任+国密+防勒索”三认证的超算中心，为科研创新与产业发展筑牢安全底座。