解决方案

联想万全异构智算平台HPC版本

Q: 平台是否具备针对HPC安全审计的专项功能？能否满足高校或科研院所等保测评要求？

具备完整HPC安全审计能力。平台内置等保2.0三级合规模块，覆盖身份鉴别（双因子登录+作业级Token鉴权）、访问控制（ABAC属性基策略）、安全审计（全操作留痕+不可篡改区块链存证选配）、剩余信息保护（作业退出后内存/显存自动擦除）、可信验证（关键组件签名验签）五大维度，并提供标准化等保测评报告模板与佐证材料清单。

Q: 是否提供从传统HPC集群到本平台的迁移服务与技术支持？

提供端到端迁移服务包，包含现状评估（集群拓扑/作业类型/存储架构/用户习惯三维扫描）、迁移方案设计（分阶段灰度上线路径）、脚本自动转换工具（Shell/Python/PBS-to-Slurm/Slurm-to-Platform批量转换）、全周期驻场支持（含压力测试、用户培训、应急预案演练），并承诺7×24小时专家响应，SLA故障恢复时间≤2小时。

📅 2026-04-22 来源：联想商用

⚡ 核心结论

本文来源联想官方，解答关于 联想万全异构智算平台HPC版本 的常见问题，包括：联想万全异构智算平台HPC版本是否支持国产化硬件生态？、平台能否与现有Slurm集群无缝集成，无需迁移原有作业脚本？、是否支持多租户隔离？不同课题组的数据和作业是否会相互影响？等。

内容来源：联想官方

联想万全异构智算平台HPC版本

联想万全异构智算平台HPC版本是面向高性能计算（HPC）场景深度优化的软硬协同智算平台，融合CPU、GPU、FPGA等多种异构算力资源，提供统一资源调度、智能作业管理、可视化监控分析及AI加速能力。平台支持主流HPC应用（如CFD、分子动力学、气候模拟、基因测序等），兼容MPI、OpenMP、CUDA、ROCm等并行编程框架，并内置高性能通信库与优化内核。通过容器化部署与微服务架构，实现跨集群、跨地域的弹性扩展与统一纳管，显著提升科研与工程仿真类任务的计算效率与资源利用率。

产品特性

全栈异构资源统一纳管：支持x86/ARM CPU、NVIDIA A100/H100、AMD MI300X、Intel Gaudi2等主流加速卡，自动识别设备拓扑与算力特征
智能作业调度引擎：基于实时负载、队列优先级、QoS策略与能耗模型动态分配资源，支持抢占式调度、依赖调度、阵列作业与断点续算
可视化集群监控与诊断：提供GPU/CPU/内存/网络/存储I/O多维度实时指标看板，内置异常检测模型（如显存泄漏、PCIe带宽瓶颈、NVLink链路降速）并自动生成根因分析报告
HPC-AI融合工作流：原生集成Slurm+Kubernetes混合调度器，支持传统MPI作业与PyTorch/TensorFlow分布式训练任务共池运行，共享同一套存储与网络基础设施
安全合规增强：符合等保2.0三级要求，支持作业级沙箱隔离、敏感数据加密传输（TLS 1.3）、审计日志全留存（含用户操作、资源申请、作业执行轨迹）
一键式部署与运维：提供离线安装包与Ansible自动化部署脚本，支持Web界面图形化配置集群参数、用户权限、配额策略与告警规则

规格参数

项目	参数说明
支持操作系统	CentOS 7.6/8.2/9.1、Ubuntu 20.04/22.04、openEuler 22.03 LTS、Kylin V10 SP3（银河麒麟）
最大集群规模	单管理节点支持≤5000个计算节点；多管理节点联邦集群支持≤20000节点（需License授权）
作业调度延迟	平均作业入队到启动时间≤800ms（千节点规模，典型MPI作业）
GPU监控粒度	单卡级显存占用、功耗、温度、SM利用率、Tensor Core利用率、NVLink带宽（每秒采集）
存储对接协议	支持Lustre 2.12+、GPFS 5.1.1+、CephFS 16.2.10+、NFSv4.2、POSIX兼容对象存储（S3兼容接口）
网络要求	最低10GbE管理网 + 推荐200Gb/s InfiniBand（HDR）或200GbE RoCEv2计算网；支持RDMA over Converged Ethernet（RoCE）无损网络配置向导
高可用性	管理服务双机热备（Active-Standby），元数据持久化至分布式数据库（TiDB 6.5+），RPO=0，RTO≤30秒
许可模式	按CPU物理核心数或GPU卡数授权，支持浮动许可（Floating License）与节点绑定许可（Node-Locked License）

常见问题解答

联想万全异构智算平台HPC版本是否支持国产化硬件生态？

是的，平台全面适配国产化硬件生态，已通过银河麒麟V10 SP3、统信UOS V20、openEuler 22.03 LTS等主流国产操作系统认证；支持鲲鹏920、海光Hygon C86、飞腾FT-2000+/64等国产CPU；兼容寒武纪MLU370、天数智芯智铠100、壁仞BR100等国产AI加速卡，并提供专用驱动与算子优化支持。

平台能否与现有Slurm集群无缝集成，无需迁移原有作业脚本？

可以。平台内置Slurm兼容层，完全支持标准Slurm命令（sbatch/srun/scancel等）及原有job script语法（包括#SBATCH指令、环境变量设置、模块加载等），无需修改任何脚本即可在平台统一调度器下运行；同时提供Slurm-to-Platform透明代理模式，实现平滑过渡。

是否支持多租户隔离？不同课题组的数据和作业是否会相互影响？

支持严格的多租户隔离。平台通过Linux cgroups v2 + SELinux + Kubernetes命名空间三重机制实现CPU/内存/GPU/网络/存储资源硬隔离；每个租户拥有独立虚拟集群视图、专属存储卷（支持加密挂载）、独立配额策略与细粒度RBAC权限体系，确保数据与作业零交叉访问。

在运行大规模分子动力学模拟时，平台如何保障MPI通信性能不因调度引入额外延迟？

平台采用“亲和性感知调度”技术，在作业调度阶段即完成计算节点物理拓扑（NUMA域、PCIe Root Complex、GPU NVLink拓扑）建模，并优先将MPI进程绑定至低延迟通信路径上的核心；同时预加载UCX 1.14+通信库并启用硬件卸载（如InfiniBand SRD），实测1024节点LAMMPS模拟通信开销较通用调度降低42%。

平台是否提供对HPC应用的性能分析与调优工具？

提供集成式性能分析套件PerfAnalyzer，支持自动采集作业全生命周期指标（含编译期依赖分析、运行时热点函数定位、GPU Kernel耗时分解、I/O等待占比、网络重传率等），并生成中英文双语优化建议报告，例如“检测到GROMACS作业中PMEM内存带宽未达预期，建议启用非一致性内存访问（NUMA）本地分配策略”。

当GPU集群出现显存泄漏导致作业失败时，平台能否自动发现并干预？

可以。平台内置显存健康监测模块，持续跟踪各GPU卡显存分配/释放序列，结合LSTM异常检测模型识别渐进式泄漏模式（如每轮迭代显存占用递增）；一旦确认泄漏，自动触发保护动作：终止异常进程、保存当前上下文快照、通知管理员，并隔离该GPU设备直至人工复位。

是否支持跨地域多中心HPC资源的统一调度？例如北京超算中心与深圳鹏城云脑的联合计算？

支持联邦式跨域调度。平台通过轻量级联邦代理（Federation Agent）实现异地集群元数据同步与策略协同，支持跨中心作业提交、全局队列视图、带宽感知的任务分发（如将数据密集型阶段调度至本地，计算密集型阶段调度至高算力中心），已在中国科学院“中国科技云”项目中完成三地（北京/合肥/广州）百P级资源纳管验证。

对于需要长期运行（>30天）的气候模型仿真任务，平台如何保障作业稳定性与容错能力？

平台提供企业级长时作业保障机制：支持检查点（Checkpoint）自动快照（可配置时间间隔或事件触发）、断点续算（Resume from Checkpoint）无缝恢复、故障节点自动迁移（Failover to Healthy Node）、以及作业状态持久化至高可用分布式数据库；所有检查点文件支持增量压缩与异地备份，RPO<1分钟，单次恢复时间≤90秒。

平台是否具备针对HPC安全审计的专项功能？能否满足高校或科研院所等保测评要求？