智算实验室解决方案杂谈

54 0 0

智算实验室解决方案杂谈

https://support.huawei.com/enterprise/zh/doc/EDOC1100289379/9170fd69#ZH-CN_TOPIC_0000001268857688

构建智算实验室，加速科研智能化

华为智算实验室方案包含智算中心、超算中心、实验室等子场景，其中实验室场景中一体化科研平台可有效解决，实验室研发中心多且布局分散；科研仪器共享不足；科研数据多、增长快；开源代码多，存在安全漏洞，开发协同不足等问题，通过统一接入、统一数据、统一运维，为科学家异地办公，协同科研带来一致性体验和便捷。同时，科学计算平台通过全栈自主创新，解决多元异构算力调度难题，提升计算效率，保障科研连续性。AI4S通过非线性拟合方式，帮助科学家解决高维方程求解难题，使能科学计算算法创新；大模型给科研创新带来新范式。

智算实验室解决方案杂谈

昇腾AI云服务器

昇腾AI云服务器（AI Accelerated Cloud Server）是一种可随时自助获取、可弹性伸缩、应用于AI训练/AI推理加速的云服务器，可为多种AI应用场景提供高效算力。

视频/图片的AI推理

直播业务的内容检测场景广泛使用AI进行部署，检测范围覆盖鉴黄，暴恐，到各种场景识别等。其中AI推理的部署成本是影响企业应用支出的重要因素，华为云昇腾AI云服务器Ai1s，非常适合resnet50，Inception，SSD，MobileNet，DenseNet等网络的AI推理业务，性价比较业界常见的GPU算力均有大幅提升。

优势

高性价比

AI推理性价比较业界常见GPU算力可提升40%以上

高性能

单batch的AI模型，较业界常见GPU算力性能最高提升2.2倍

生态兼容

支持Tensorflow，Caffe主流框架

智算实验室解决方案杂谈

智慧门店

智慧门店的业务场景面临大量视频数据分析的挑战，华为云昇腾AI云服务器Ai1s，可以对视频和图片数据进行高效快速的AI分析，综合性价比较业界常见的GPU算力提升25%以上。用户在云上直接部署AI算力&算法进行视频分析，跟门店摄像头对接，方便扩容。

优势

高性价比

昇腾AI云服务器Ai1s进行AI视频&图片分析，性价比较业界常见GPU算力提升25%以上。

弹性扩容

AI算力部署在华为云，和摄像头数据通过OBS对接，对于部署节点无机房要求，可以快速扩容。

端边云融合

昇腾AI云服务器与Atlas200模组，Atlas500智能小站架构一致，支持用户的应用灵活的在云和端侧协同部署。

AI推理加速型Ai1s

提供高性能AI推理算力、均衡的CPU内存配比、高性能网络能力。单实例最大可提供上百TOPS的计算性能，能够快速的基于复杂模型完成预测适用场景：内容检测，视频转码，智慧零售等视觉累类应用
CPU内存比：1:2/1:4，vCPU范围：2~32
Ascend310数量：1~16，基频/睿频：2.6GHz/3.4GHz

AI训练加速型Physical.KAt1

高性能，支持AI训练和AI重载应用推理AI训练：如BERT，以及视觉类的AI模型训练，AI重载推理，如AI超分辨率
CPU核数：192，CPU主频：2.6GHz
内存：768GB，卡间互联带宽：100Gbps

微晟科技智慧门店客户案例

微晟携手华为云，以消费者为中心，以数据为驱动，提升客户体验，增加收入，提升运营效率，节约成本，共同开启智慧零售新体验客户感言：微晟科技一直秉承着“为人们创造美好、高效、便利的购物体验”为重要使命，探索最前沿的AIoT技术，在智慧零售领域深耕细作，我们不是“风口”的投机者，我们是充满激情的挑战者和创造者。拥抱变化，勇于创新，微晟科技与华为云的合作，将有效提高微晟科技在人工智训练方面的效率，借助华为云强大的云技术体系，为行业输出更完备的高性能智能零售解决方案，更好地促进行业生态系统的可持续发展！客户价值：针对零售行业面临的挑战，华为昇腾云服务器助力微晟智能防损系统为商超收银区设计开发出一体化防损解决方案：

1. 极致性价比：业界最佳AI推理算力，推理成本下降30%

2. 极致性能：使用AI容器计算集群，性能提升30%

3. 端-边-云融合：分布式AI训练集群，边云同态部署

4. 生态兼容：昇腾AI计算解决方案兼容Tensorflow、Caffe等业界主流算子，降低智能防损系统迁移至昇腾云服务时间

——微晟科技

GPU加速云服务器 GACS

GPU加速云服务器（GPU Accelerated Cloud Server, GACS）能够提供优秀的浮点计算能力，从容应对高实时、高并发的海量计算场景。P系列适合于深度学习，科学计算，CAE等；G系列适合于3D动画渲染，CAD等。

智算实验室解决方案杂谈

人工智能

GPU包含上千个计算单元，在并行计算方面展示出强大的优势，P1、P2v实例针对深度学习特殊优化，可在短时间内完成海量计算；Pi1实例整型计算时延低，可支持35路高清视频解码与实时AI推理

优势

GPU Direct

完美支撑大数据在神经网络间传输

100GB IB网络

支持GPU Direct over RDMA，100G超高带宽， 2us超低时延

内置加速框架

一键式部署，分钟级实例发放，聚焦核心业务

建议搭配使用

弹性云服务器 ECS

GPU加速云服务器 GACS

云硬盘 EVS

虚拟私有云 VPC

对象存储服务 OBS

Ai1s（昇腾310）

深度学习推理，单芯片8G显存

深度学习推理

vCPU

2/4/8/16/32核

内存

8/16/32/64/128GB

系统盘

40GB（默认）

显卡

1/2/4/8/16 Ascend 310

标准库支持

Atlas DDK

Pi2（T4）

深度学习推理

vCPU

8/16/32核

内存

32/64/128GB

系统盘

40GB（默认）

显卡

1/2/4 T4

标准库支持

CUDA/OpenCL

立即购买

G5（V100）

CPU核多，适合对于CPU和GPU资源要求都高的推理业务

深度学习训练，视频AI推理，语音语义分析

vCPU

32核

内存

128 GB

系统盘

40GB（默认）

显卡

1 V100

标准库支持

CUDA/openGL

智算实验室解决方案杂谈

人工智能计算中心

方案简介

人工智能计算中心的总体架构图如图2-1所示。

智算实验室解决方案杂谈

图2-1 人工智能计算中心总体架构

按照解决方案分层架构，对各层功能做简要介绍。

运营&运维

运营平台：定制化二次运营平台，主要服务对象包括运营管理员和租户（用户）。用户可以通过该平台完成注册、登录、AI服务开通、工单上报、计费等功能；运营管理员可以通过该平台实现产品录入、定价录入、订单管理、客户管理、权限管理、费用管理、工单管理、公告管理、运营分析、运营大屏等相关功能。
运维平台：集群计算中心支持两种运维模式，一种是常连线远程运维，由SRE运维管理员通过华为云CloudScope统一运维平台远程运维；一种是本地运维，由计算中心本地运维管理员通过本地运维平台进行运维。

软件基础设施

ModelArts：面向开发者的一站式AI开发平台，为机器学习与深度学习提供数据集管理、标注管理、大规模分布式训练、自动化模型生成、模型中心侧和边缘侧部署能力。
MindX: AI应用使能插件，支持模型加速、断点续训等AI应用使能。
MindSpore: AI开发框架，支持AI分布式训练和推理的底层AI开发框架。
CANN: AI计算加速库，支持对NPU的计算加速、算子支持等。
HCCL: 集合通信库，用于对NPU分布式训练通信原语的支持。

云平台

HCSO算力服务底座：统一纳管所有物理硬件资源，并实现资源池化、按需分配和弹性伸缩，同时提供多租户、网络隔离等能力。

硬件基础设施

计算子系统：基于昇腾系列处理器构建的全栈AI计算基础设施，包括昇腾系列处理器、昇腾系列训练服务器。
存储子系统：用于存储训练与推理数据、平台预置镜像的存储设备。
网络子系统：用于计算中心网络互连的设备。

基建基础设施：规划建设设计、机房土建、电气工程建设和风水火电建设。

# 随笔