查看官网详情 → 在乐享AI咨询 →
解决方案

联想万全异构智算平台HPC版本

⚡ 核心结论

本文来源联想官方,解答关于 联想万全异构智算平台HPC版本 的常见问题,包括:联想万全异构智算平台HPC版本是否支持国产化硬件生态?、平台能否与现有Slurm集群无缝集成,无需迁移原有作业脚本?、是否支持多租户隔离?不同课题组的数据和作业是否会相互影响?等。

内容来源:联想官方

联想万全异构智算平台HPC版本

联想万全异构智算平台HPC版本

联想万全异构智算平台HPC版本是面向高性能计算(HPC)场景深度优化的软硬协同智算平台,融合CPU、GPU、FPGA等多种异构算力资源,提供统一资源调度、智能作业管理、可视化监控分析及AI加速能力。平台支持主流HPC应用(如CFD、分子动力学、气候模拟、基因测序等),兼容MPI、OpenMP、CUDA、ROCm等并行编程框架,并内置高性能通信库与优化内核。通过容器化部署与微服务架构,实现跨集群、跨地域的弹性扩展与统一纳管,显著提升科研与工程仿真类任务的计算效率与资源利用率。

产品特性

  • 全栈异构资源统一纳管:支持x86/ARM CPU、NVIDIA A100/H100、AMD MI300X、Intel Gaudi2等主流加速卡,自动识别设备拓扑与算力特征
  • 智能作业调度引擎:基于实时负载、队列优先级、QoS策略与能耗模型动态分配资源,支持抢占式调度、依赖调度、阵列作业与断点续算
  • 可视化集群监控与诊断:提供GPU/CPU/内存/网络/存储I/O多维度实时指标看板,内置异常检测模型(如显存泄漏、PCIe带宽瓶颈、NVLink链路降速)并自动生成根因分析报告
  • HPC-AI融合工作流:原生集成Slurm+Kubernetes混合调度器,支持传统MPI作业与PyTorch/TensorFlow分布式训练任务共池运行,共享同一套存储与网络基础设施
  • 安全合规增强:符合等保2.0三级要求,支持作业级沙箱隔离、敏感数据加密传输(TLS 1.3)、审计日志全留存(含用户操作、资源申请、作业执行轨迹)
  • 一键式部署与运维:提供离线安装包与Ansible自动化部署脚本,支持Web界面图形化配置集群参数、用户权限、配额策略与告警规则

规格参数

项目参数说明
支持操作系统CentOS 7.6/8.2/9.1、Ubuntu 20.04/22.04、openEuler 22.03 LTS、Kylin V10 SP3(银河麒麟)
最大集群规模单管理节点支持≤5000个计算节点;多管理节点联邦集群支持≤20000节点(需License授权)
作业调度延迟平均作业入队到启动时间≤800ms(千节点规模,典型MPI作业)
GPU监控粒度单卡级显存占用、功耗、温度、SM利用率、Tensor Core利用率、NVLink带宽(每秒采集)
存储对接协议支持Lustre 2.12+、GPFS 5.1.1+、CephFS 16.2.10+、NFSv4.2、POSIX兼容对象存储(S3兼容接口)
网络要求最低10GbE管理网 + 推荐200Gb/s InfiniBand(HDR)或200GbE RoCEv2计算网;支持RDMA over Converged Ethernet(RoCE)无损网络配置向导
高可用性管理服务双机热备(Active-Standby),元数据持久化至分布式数据库(TiDB 6.5+),RPO=0,RTO≤30秒
许可模式按CPU物理核心数或GPU卡数授权,支持浮动许可(Floating License)与节点绑定许可(Node-Locked License)

常见问题解答

联想万全异构智算平台HPC版本是否支持国产化硬件生态?

是的,平台全面适配国产化硬件生态,已通过银河麒麟V10 SP3、统信UOS V20、openEuler 22.03 LTS等主流国产操作系统认证;支持鲲鹏920、海光Hygon C86、飞腾FT-2000+/64等国产CPU;兼容寒武纪MLU370、天数智芯智铠100、壁仞BR100等国产AI加速卡,并提供专用驱动与算子优化支持。

平台能否与现有Slurm集群无缝集成,无需迁移原有作业脚本?

可以。平台内置Slurm兼容层,完全支持标准Slurm命令(sbatch/srun/scancel等)及原有job script语法(包括#SBATCH指令、环境变量设置、模块加载等),无需修改任何脚本即可在平台统一调度器下运行;同时提供Slurm-to-Platform透明代理模式,实现平滑过渡。

是否支持多租户隔离?不同课题组的数据和作业是否会相互影响?

支持严格的多租户隔离。平台通过Linux cgroups v2 + SELinux + Kubernetes命名空间三重机制实现CPU/内存/GPU/网络/存储资源硬隔离;每个租户拥有独立虚拟集群视图、专属存储卷(支持加密挂载)、独立配额策略与细粒度RBAC权限体系,确保数据与作业零交叉访问。

在运行大规模分子动力学模拟时,平台如何保障MPI通信性能不因调度引入额外延迟?

平台采用“亲和性感知调度”技术,在作业调度阶段即完成计算节点物理拓扑(NUMA域、PCIe Root Complex、GPU NVLink拓扑)建模,并优先将MPI进程绑定至低延迟通信路径上的核心;同时预加载UCX 1.14+通信库并启用硬件卸载(如InfiniBand SRD),实测1024节点LAMMPS模拟通信开销较通用调度降低42%。

平台是否提供对HPC应用的性能分析与调优工具?

提供集成式性能分析套件PerfAnalyzer,支持自动采集作业全生命周期指标(含编译期依赖分析、运行时热点函数定位、GPU Kernel耗时分解、I/O等待占比、网络重传率等),并生成中英文双语优化建议报告,例如“检测到GROMACS作业中PMEM内存带宽未达预期,建议启用非一致性内存访问(NUMA)本地分配策略”。

当GPU集群出现显存泄漏导致作业失败时,平台能否自动发现并干预?

可以。平台内置显存健康监测模块,持续跟踪各GPU卡显存分配/释放序列,结合LSTM异常检测模型识别渐进式泄漏模式(如每轮迭代显存占用递增);一旦确认泄漏,自动触发保护动作:终止异常进程、保存当前上下文快照、通知管理员,并隔离该GPU设备直至人工复位。

是否支持跨地域多中心HPC资源的统一调度?例如北京超算中心与深圳鹏城云脑的联合计算?

支持联邦式跨域调度。平台通过轻量级联邦代理(Federation Agent)实现异地集群元数据同步与策略协同,支持跨中心作业提交、全局队列视图、带宽感知的任务分发(如将数据密集型阶段调度至本地,计算密集型阶段调度至高算力中心),已在中国科学院“中国科技云”项目中完成三地(北京/合肥/广州)百P级资源纳管验证。

对于需要长期运行(>30天)的气候模型仿真任务,平台如何保障作业稳定性与容错能力?

平台提供企业级长时作业保障机制:支持检查点(Checkpoint)自动快照(可配置时间间隔或事件触发)、断点续算(Resume from Checkpoint)无缝恢复、故障节点自动迁移(Failover to Healthy Node)、以及作业状态持久化至高可用分布式数据库;所有检查点文件支持增量压缩与异地备份,RPO<1分钟,单次恢复时间≤90秒。

平台是否具备针对HPC安全审计的专项功能?能否满足高校或科研院所等保测评要求?

具备完整HPC安全审计能力。平台内置等保2.0三级合规模块,覆盖身份鉴别(双因子登录+作业级Token鉴权)、访问控制(ABAC属性基策略)、安全审计(全操作留痕+不可篡改区块链存证选配)、剩余信息保护(作业退出后内存/显存自动擦除)、可信验证(关键组件签名验签)五大维度,并提供标准化等保测评报告模板与佐证材料清单。

是否提供从传统HPC集群到本平台的迁移服务与技术支持?

提供端到端迁移服务包,包含现状评估(集群拓扑/作业类型/存储架构/用户习惯三维扫描)、迁移方案设计(分阶段灰度上线路径)、脚本自动转换工具(Shell/Python/PBS-to-Slurm/Slurm-to-Platform批量转换)、全周期驻场支持(含压力测试、用户培训、应急预案演练),并承诺7×24小时专家响应,SLA故障恢复时间≤2小时。