• A800训练集群云服务及存储扩容

     

    为满足人工智能业务发展需求,建设高性能 AI 算力资源池,利用现有平台,为大模型提供算力支持,筑牢发展基础。

项目背景

 

为了满足集团人工智能业务快速发展的需求,规划并建设了一个高性能、高带宽、低延迟、零丢包的AI算力资源池。该资源池也分利用了现有的大数据算力平台,为生成式语义大模型和视觉大模型提供强劲的算力支持。通过构建高速网络和超大集群,资源池将保障训推一体的高效稳定运行,为人工智能研究与应用,提供坚实的底座基础。

特点优势

高性能

 

能够高效地训练大规模深度学习模型,已有多批客户入驻;在AI训练和推理、科学计算、大数据分析等场景中展现出强大的优势。

高扩展性

 

平台为模块化设计,易于扩展算力,满足不断增长的计算需求;算力存储基于分布式架构,为不断增长的AI数据提供无忧扩展支撑;整体平台支持高效的横向和纵向扩展。

易用性

 

平台为用户提供灵活友好的使用体验,用户可以按需选择对应的训推部署模式和开发环境,同样支持容器化使用,自动化程度高。

可靠性

 

集群组件均为冗余设计,自愈性高,且实现高负载均衡;对用户的数据实现了高安全保障,具备预警机制。

成本效益

 

高性能的平台能力,有利于缩短客户的训推时间、提升模型精度和量化能力、减低计算成本,大大提升平台竞争力和客户体验,将为集团创造更大收益。

客户收益

 

持续保障集团算力业务系统高速、安全、可靠、稳定地运行,满足集团算力平台业务的快速发展与模式创新;持续支撑集群的AI软件生态,比如深度学习框架、分布式训练框架、各类模型库、开发工具等等,加速推进算力平台的业务开展,增强用户体验与赋能。