科学计算显卡

随笔2个月前发布 小鑫鑫宝贝
27 0 0

显卡型号

A100:基于 Ampere 架构,发布于 2020 年。价格为 6~9 万。

架构:Ampere
制程工艺:7nm
CUDA 核心:6912
Tensor 核心:432
显存:40 GB 或 80 GB HBM2e,带宽高达 1.6 TB/s
峰值 FP64 性能:9.7 TFLOPS
峰值 FP32 性能:19.5 TFLOPS
混合精度性能:312 TFLOPS(TF32 with sparsity)
NVLink 带宽:600 GB/s(双向,使用 NVLink 3.0)
多实例 GPU (MIG):支持将单个 A100 GPU 划分为最多 7 个独立的 GPU 实例,以提高资源利用率和灵活性。
功耗:300-400W(取决于具体型号和配置)

H100:基于 Hopper 架构,发布于 2022 年。

架构:Hopper
制程工艺:4nm
CUDA 核心:16896
Tensor 核心:528
显存:80 GB HBM3,带宽高达 3.2 TB/s
峰值 FP64 性能:30 TFLOPS
峰值 FP32 性能:60 TFLOPS
混合精度性能:1000 TFLOPS(FP16 with sparsity)
NVLink 带宽:900 GB/s(双向,使用 NVLink 4.0)
多实例 GPU (MIG):支持将单个 H100 GPU 划分为最多 7 个独立的 GPU 实例。
Transformer Engine:专门优化 Transformer 模型的性能,加速自然语言处理任务。
功耗:300-700W(取决于具体型号和配置)

NVIDIA Datacenter GPUs

显卡算力排行榜(源自 AutoDL):

科学计算显卡

接口类型

SXM4 和 PCIe

物理接口和安装方式

SXM4

物理接口:SXM4 是一种专有的模块化接口,由 NVIDIA 设计用于高性能计算和深度学习加速卡。
安装方式:SXM4 GPU 通常安装在 NVIDIA DGX 系统或其他高性能服务器中,通过专用的插槽进行连接,确保高效的散热和电气性能。

PCIe

物理接口:PCIe 是一种通用的接口标准,用于连接各种类型的扩展卡,包括 GPU、网卡、存储控制器等。
安装方式:PCIe GPU 通常插入主板上的 PCIe 插槽,用于台式机、工作站和服务器。

数据传输速率

SXM4

高带宽:SXM4 使用 NVIDIA NVLink 技术,提供更高的带宽和更低的延迟。每个 NVLink 2.0 通道支持 25 GB/s 的双向带宽,多通道组合可提供数百 GB/s 的带宽。
低延迟:由于 NVLink 的高效互连设计,SXM4 GPU 间的数据传输延迟较低,有利于深度学习和高性能计算任务。

PCIe

带宽受限:PCIe 4.0 每通道提供 2 GB/s 的带宽(双向),16 通道(x16)配置下总带宽为 32 GB/s(双向)。PCIe 5.0 的带宽翻倍,但仍不及 NVLink 提供的总带宽。
延迟相对较高:相比 NVLink,PCIe 的延迟较高,可能会影响高度并行计算任务的性能。

热管理和功耗

SXM4

热管理:由于采用专用的模块化设计,SXM4 GPU 通常配备更高效的散热解决方案,包括水冷或更高级的风冷系统。
功耗:SXM4 GPU 通常具有更高的功耗上限,适用于需要极高计算性能的任务。

PCIe

热管理:PCIe GPU 通常依赖于主板和机箱的散热方案,可能需要额外的散热器或风扇。
功耗:PCIe GPU 的功耗上限通常较低,适合一般的工作站和服务器环境。

适用场景

SXM4

高性能计算(HPC):适用于科学模拟、大规模并行计算任务。
深度学习:特别适用于需要高速互连和高带宽的深度学习训练和推理任务。
数据中心:常用于高性能计算集群和数据中心环境。

PCIe

台式机和工作站:适用于一般的图形处理、游戏开发、视频编辑等任务。
服务器:用于不需要极高带宽和低延迟的服务器应用,如虚拟化、数据库等。

NVL 和 SXM

NVLink(NVL)和 SXM 是 NVIDIA 开发的两种不同的硬件技术,虽然它们都用于提高 GPU 性能和扩展性,但它们的目的和功能有所不同。

NVLink (NVL)

高带宽数据传输
NVLink 提供比传统 PCIe 更高的带宽和更低的延迟。最新版本的 NVLink 4.0 的带宽可高达 900 GB/s(双向)。

多 GPU 互连
NVLink 允许多个 GPU 通过 NVLink 桥接器互连,形成一个高效的计算集群。这在多 GPU 协同工作时特别有用,例如在深度学习训练和高性能计算任务中。

一致性内存访问
NVLink 支持 GPU 之间的一致性内存访问,使多个 GPU 可以更高效地共享和访问数据。

应用场景
主要用于需要多 GPU 高效协同工作的场景,如人工智能和深度学习、高性能计算(HPC)和数据中心等。

SXM

模块化设计
SXM 是 NVIDIA 的 GPU 模块化设计。与传统的 PCIe 插槽不同,SXM 模块直接焊接到主板上,提供更高的电力供应和更好的散热性能。

更高的电力供应
SXM 模块设计允许更高的功率输入,这对于高性能 GPU 来说至关重要。例如,NVIDIA 的 A100 和 H100 GPU 使用的 SXM 模块可以提供比 PCIe 插槽更高的功率。

更好的散热性能
由于 SXM 模块直接与主板接触,可以实现更有效的散热设计。这在高密度数据中心和高性能计算环境中尤其重要。

紧密集成
SXM 模块通常与 NVLink 结合使用,以实现更高效的多 GPU 互连和数据传输。这样可以最大化利用 GPU 的计算能力和带宽。

应用场景
SXM 模块主要用于高性能计算环境,如超级计算机、数据中心以及需要紧密 GPU 集成的 AI 和深度学习服务器。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...