近日,大模型智算软件栈OGAI发布会在北京开幕,作为大模型智算软件栈的重要基座,会上重磅发布了大模型算力服务的智能算力底座「智算 OS」。智算OS是面向大模型算力服务的智能算力运管平台,通过池化通用、智能等算力,满足多租户弹性AI算力供给需求,不断驱动产业AI转型升级,为百行千业开启智慧算力新征程。
OGAI,即Open GenAI Infra元脑生智,是为大模型业务提供AI算力系统环境部署、算力调度以及开发管理能力的全栈全流程的智算软件栈。
基于全栈全流程、算力充分释放、实战验证提炼等设计理念,OGAI分为 L0-L4共5层,旨在为大模型开发与应用全力打造高效生产力。智算OS作为智算软件栈的基座,能够满足多租户以裸金属为主的弹性AI算力运管需求。其中,高效的裸金属服务支持分钟级部署上千规模裸金属节点,并按需进行弹性扩展,实现异构计算芯片、IB、RoCE高速网络、高性能存储等环境一键获取,并实现计算、网络、数据隔离以保障业务安全。
作为智慧算力时代的典型应用,AIGC(人工智能生成内容)自出现起便备受关注,也大大加速传统数据中心向“智算中心”的转型进程。智算中心不仅需要提供通用算力,还需具备GPU、DPU、FPGA等多元异构算力,并且能够根据用户的不同需求,提供算力的发放或售卖服务。
智算OS聚焦智算中心场景,在融合云、服务器、存储、网络、AI等基础设施产品的基础上,整合各类算力资源,为智算中心提供基础硬件设施以及云、数、智等软件平台的统一运营、运维门户和智能管理,帮助企业解决智慧算力时代的种种难题,满足互联网、教科研、金融等行业客户智算中心建设及运营运维需求。在大模型场景下,通过智算OS统一化算力平台,能够简便灵活获取GPU裸金属服务,分钟级即可部署上千规模裸金属服务器,按需进行弹性扩展。异构计算芯片、IB、RoCE高速网络、并行存储等计算环境,一键获取,计算、网络、数据、隔离保障业务安全,像虚拟机一样易用,充分释放算力潜能。
智算OS支持通用算力、智能算力等多种异构算力统一纳管,并采用弹性计算框架,实现资源弹性调度和多租户体系。根据租户使用情况,自动分配和调度资源,大幅降低资源使用的等待时间。按照用户实际情况进行逻辑体系规划,实现不同租户体系间资源隔离,保障数据安全性。通过自动化运维能力,降低对运维人员的专业性要求和运维复杂度,帮助用户将主要精力集中在AI开发中,真正实现降本增效。针对 AI 大模型训练的计算特点,智算OS对集群架构、高速互联、算力调度等方面进行全面优化,在系统架构上,采用单节点集成8颗加速器的AI服务器,节点内加速器间实现超高速P2P通信,节点间建立***低延迟、超高带宽的 Infiniband通信网络。
目前智算OS已经广泛应用于多个省市级智算中心、***实验室,全栈训练出2个LLM大模型,具备20+千卡集群、10000+计算节点集群的建设调优经验,为千行百业提供高效的算力支撑。
浪潮信息分布式存储AS13000-H,浪潮信息AS13000-M存储平台,浪潮信息存储SSD NS6610G1智算OS