-
A800训练集群云服务及存储扩容
为满足人工智能业务发展需求,建设高性能 AI 算力资源池,利用现有平台,为大模型提供算力支持,筑牢发展基础。
-
项目背景
为了满足集团人工智能业务快速发展的需求,规划并建设了一个高性能、高带宽、低延迟、零丢包的AI算力资源池。该资源池也分利用了现有的大数据算力平台,为生成式语义大模型和视觉大模型提供强劲的算力支持。通过构建高速网络和超大集群,资源池将保障训推一体的高效稳定运行,为人工智能研究与应用,提供坚实的底座基础。
解决方案
• 整个集群,基于英伟达GPU所要求的技术架构,并在此基础上对存储和业务网络按需求进行逻辑设计,主体包括计算、存储、业务、管理四大功能区。
• InfiniBand在性能、功能和应用场景方面都具有明显的优势,本期项目的计算与存储两大功能区,采用英伟达IB架构,部署英伟达Quantum IB交换机和ConnectX IB网卡, 均为八通道轨道优化设计。
• 架构设计旨在最大限度地减少整个紧密耦合配置中的系统瓶颈,以提供最佳性能支撑算力平台上的千行百业。
• 整体设计保持灵活的模块化原则,以便于后期进行集群的扩展和升级。
• 本期具备360P的算力规模。
特点优势
其他案例
智算集群GUP项目万卡级大规模训练
面向未来超前投入,依托集团完善的运营服务体系,该平台将促进数据要素合规高效流通,打造完备的数据产业生态,可为智慧城市、政务服务、智慧交通等千行百业提供普惠公共算力服务,为人工智能新高地夯实新基础。