英智构建英伟达顶配的高性能算力集群,提供算力租赁服务

随着高性能计算HPC和大模型应用的日渐升级发展,越来越需要高速稳定的算力网络。大模型的训练任务涉及到大量模型参数和训练数据的传递,如果数据传输速度慢,会导致整个训练过程耗时较长,从而延长模型研发周期。相关数据表明,大模型参数传递需要占到总训练50%的时间。在这段时间内,GPU所提供的算力并不能完全被利用,严重带来算力资源的浪费,高性能数据传输是大模型应用中起决定作用。大模型训练高度依赖高性能计算集群,而InfiniBand网络是高性能计算集群的最佳方案。

 

英智公司使用英伟达市场顶配服务器和InfiniBand400G IB无阻塞Spine-Leaf网络架构,在深圳建设有一套千卡规模【H系列+8IB组网】人工智能智算集群,目前已完成组网和测试,能够支持大模型训练所需的智能算力服务。在多机 NCCL 测试结果中,最大带宽可达382GB/s,基本接近建设的400G的网络带宽。相比【H800+4IB组网】集群,该集群整体计算效率整体提升了4倍以上。在提升网络转发性能的同时,还降低了故障恢复时间,提升扩展能力,降低了运维复杂度。对于需要处理大量数据的复杂计算任务,这个系统的性能无疑是优异的。

 

随着AI应用生态的逐步成熟和应用场景的逐步开拓,市场对于算力的需求也越来越大,英智智算集群支持大规模扩展建设,后续可灵活平滑扩容到万卡规模,满足大模型训练、智能数据分析等高强度计算任务的需求。无论是应对业务的快速增长,还是处理突发的大规模计算需求,都能够轻松应对,为企业提供坚实的算力保障。

建设高性能的算力集群需要高昂的费用成本和专业技术支持,企业想要得到与行业高度融合又低时延的算力支持,并非大量购买服务器就能实现。

 

英智公司凭借英伟达顶配芯片打造的智算算力集群,通过BayStone算力调度平台,组织算力提供方、需求方实现快速对接,为企业提供丰富强大的算力支持,使企业将更多的精力放在算法和模型的优化上,而不必担心底层的硬件配置。

 

 

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...