万全异构智算平台
高度自动化完成AI全流程开发,可输出高可用算力并不断突破计算效率瓶颈的利器,能够集成算力管理与调度,数据治理与模型优化、训练精调和推理应用开发等多层次的能力,为使用者提供更简单、更高效、更稳定的算力体验。
关键词:万全异构智算,大模型,AI计算,高算力,联想万全。
产品特性
• 全栈式AI开发支持:覆盖数据准备、模型训练、精调优化、推理部署、监控运维全生命周期
• 异构算力统一纳管:支持GPU(NVIDIA A100/H100、AMD MI300等)、CPU、DPU及国产加速卡(如寒武纪、昇腾)混合资源池化与智能调度
• 智能数据治理引擎:内置数据清洗、标注、增强、版本管理及隐私合规检查能力,支持多源异构数据一键接入与质量评估
• 大模型专属优化套件:集成LoRA/P-Tuning v2/QLoRA等轻量化微调技术,支持千亿参数模型分布式训练与低延迟推理加速
• 可视化低代码开发界面:拖拽式流程编排、模型组件库复用、训练任务一键提交与实时指标看板
• 企业级安全与合规保障:RBAC权限控制、模型血缘追踪、训练数据水印、推理API审计日志、等保三级就绪架构
规格参数
| 类别 | 项目 | 详细说明 |
|---|
| 硬件兼容性 | 支持服务器型号 | ThinkSystem SR670 V2、SR675 V3、SD650 V3、HR650X;支持第三方OCP/ODCC标准机架服务器 |
| 算力资源调度 | 最大集群规模 | 单集群支持≥2048张GPU卡(含混合架构),跨集群联邦调度支持≥5个数据中心节点 |
| 数据管理 | 单任务最大数据集容量 | ≥500 TB(对象存储对接Ceph/S3/MinIO),支持增量同步与断点续传 |
| 模型训练 | 最大支持模型参数量 | ≥100B(稠密架构),支持MoE稀疏架构下>1T参数模型分片训练 |
| 推理服务 | 并发QPS能力(典型场景) | LLaMA-3-70B FP16:单节点≥120 QPS;Qwen2-57B INT4:单节点≥380 QPS(P99延迟<800ms) |
| 系统可靠性 | 服务可用性 | ≥99.99%(年均宕机时间≤52.6分钟),支持算力故障自动迁移与任务无感恢复 |
| 部署模式 | 支持形态 | 全栈私有化部署、信创环境适配(麒麟V10/统信UOS+海光/鲲鹏CPU)、混合云协同架构 |
常见问题解答
万全异构智算平台是否支持国产芯片?具体兼容哪些国产AI加速卡?
是,平台全面支持国产AI加速卡,已通过认证并预集成寒武纪MLU370系列、华为昇腾910B/910C、天数智芯智铠100、壁仞BR100等主流国产芯片驱动与运行时环境,支持统一抽象层调用,无需修改业务代码即可切换后端加速器。
平台能否对接用户已有的Hadoop或Spark大数据平台?
可以。平台提供原生Apache Spark Connector与Hive Metastore直连能力,支持通过JDBC/Thrift Server方式读取HDFS/Hive表,同时兼容Delta Lake、Iceberg等开放数据湖格式,实现训练数据与数仓资产无缝打通。
在进行大模型微调时,平台如何降低显存占用并提升训练效率?
平台内置自适应显存优化引擎,自动启用梯度检查点(Gradient Checkpointing)、Flash Attention-2、FP8混合精度训练,并默认集成QLoRA、DoRA等低秩适配技术;结合动态批处理与序列长度感知调度,同等硬件条件下显存占用最高可降低65%,训练吞吐提升2.3倍。
是否提供模型推理服务的灰度发布与AB测试能力?
提供完整的MLOps推理治理能力,支持按流量比例、用户标签、设备类型等多维度配置灰度策略;内置版本对比看板,可实时监控新旧模型在准确率、延迟、错误率、Token吞吐等12项核心指标差异,并一键回滚。
平台的数据治理模块是否满足金融行业对数据脱敏与合规审计的强监管要求?
是。数据治理模块内置国标GB/T 35273-2020《个人信息安全规范》合规检查规则集,支持字段级动态脱敏(如身份证号掩码、手机号变形)、敏感数据自动识别与分级分类、操作留痕审计(含数据访问、导出、标注行为),并通过等保三级测评与金融行业专项安全加固验证。
是否支持多租户隔离?不同业务部门能否在统一平台上独立开展AI研发而不互相干扰?
支持企业级多租户架构,每个租户拥有独立的命名空间、资源配额(GPU/CPU/内存/存储)、网络策略、镜像仓库及模型注册中心;租户间逻辑完全隔离,管理员可精细化控制跨租户数据共享白名单与API调用权限。
平台是否具备模型压缩与边缘侧部署能力?能否将大模型部署到边缘网关或工控设备?
具备端边云协同能力。平台集成TensorRT-LLM、ONNX Runtime、OpenVINO等多后端编译器,支持大模型量化(INT4/FP16)、剪枝、知识蒸馏及算子融合;输出模型可一键打包为Docker容器、NVIDIA Triton模型仓库包或轻量级C++ SDK,适配NVIDIA Jetson、华为Atlas 200/500、瑞芯微RK3588等主流边缘硬件。
对于已有Python脚本训练流程的团队,是否必须重构为平台可视化流程才能使用?
否。平台提供CLI命令行工具与Python SDK(lenovo-aisdk),支持直接提交本地.py训练脚本、PyTorch Lightning/Transformers原生代码,自动注入分布式训练封装、日志采集与检查点管理;亦可将现有脚本注册为可复用的“自定义算子”,纳入可视化流程编排体系。