显卡型号
A100:基于 Ampere 架构,发布于 2020 年。价格为 6~9 万。
架构:Ampere
制程工艺:7nm
CUDA 核心:6912
Tensor 核心:432
显存:40 GB 或 80 GB HBM2e,带宽高达 1.6 TB/s
峰值 FP64 性能:9.7 TFLOPS
峰值 FP32 性能:19.5 TFLOPS
混合精度性能:312 TFLOPS(TF32 with sparsity)
NVLink 带宽:600 GB/s(双向,使用 NVLink 3.0)
多实例 GPU (MIG):支持将单个 A100 GPU 划分为最多 7 个独立的 GPU 实例,以提高资源利用率和灵活性。
功耗:300-400W(取决于具体型号和配置)
H100:基于 Hopper 架构,发布于 2022 年。
架构:Hopper
制程工艺:4nm
CUDA 核心:16896
Tensor 核心:528
显存:80 GB HBM3,带宽高达 3.2 TB/s
峰值 FP64 性能:30 TFLOPS
峰值 FP32 性能:60 TFLOPS
混合精度性能:1000 TFLOPS(FP16 with sparsity)
NVLink 带宽:900 GB/s(双向,使用 NVLink 4.0)
多实例 GPU (MIG):支持将单个 H100 GPU 划分为最多 7 个独立的 GPU 实例。
Transformer Engine:专门优化 Transformer 模型的性能,加速自然语言处理任务。
功耗:300-700W(取决于具体型号和配置)
NVIDIA Datacenter GPUs
显卡算力排行榜(源自 AutoDL):
接口类型
SXM4 和 PCIe
物理接口和安装方式
SXM4:
物理接口:SXM4 是一种专有的模块化接口,由 NVIDIA 设计用于高性能计算和深度学习加速卡。
安装方式:SXM4 GPU 通常安装在 NVIDIA DGX 系统或其他高性能服务器中,通过专用的插槽进行连接,确保高效的散热和电气性能。
PCIe:
物理接口:PCIe 是一种通用的接口标准,用于连接各种类型的扩展卡,包括 GPU、网卡、存储控制器等。
安装方式:PCIe GPU 通常插入主板上的 PCIe 插槽,用于台式机、工作站和服务器。
数据传输速率
SXM4:
高带宽:SXM4 使用 NVIDIA NVLink 技术,提供更高的带宽和更低的延迟。每个 NVLink 2.0 通道支持 25 GB/s 的双向带宽,多通道组合可提供数百 GB/s 的带宽。
低延迟:由于 NVLink 的高效互连设计,SXM4 GPU 间的数据传输延迟较低,有利于深度学习和高性能计算任务。
PCIe:
带宽受限:PCIe 4.0 每通道提供 2 GB/s 的带宽(双向),16 通道(x16)配置下总带宽为 32 GB/s(双向)。PCIe 5.0 的带宽翻倍,但仍不及 NVLink 提供的总带宽。
延迟相对较高:相比 NVLink,PCIe 的延迟较高,可能会影响高度并行计算任务的性能。
热管理和功耗
SXM4:
热管理:由于采用专用的模块化设计,SXM4 GPU 通常配备更高效的散热解决方案,包括水冷或更高级的风冷系统。
功耗:SXM4 GPU 通常具有更高的功耗上限,适用于需要极高计算性能的任务。
PCIe:
热管理:PCIe GPU 通常依赖于主板和机箱的散热方案,可能需要额外的散热器或风扇。
功耗:PCIe GPU 的功耗上限通常较低,适合一般的工作站和服务器环境。
适用场景
SXM4:
高性能计算(HPC):适用于科学模拟、大规模并行计算任务。
深度学习:特别适用于需要高速互连和高带宽的深度学习训练和推理任务。
数据中心:常用于高性能计算集群和数据中心环境。
PCIe:
台式机和工作站:适用于一般的图形处理、游戏开发、视频编辑等任务。
服务器:用于不需要极高带宽和低延迟的服务器应用,如虚拟化、数据库等。
NVL 和 SXM
NVLink(NVL)和 SXM 是 NVIDIA 开发的两种不同的硬件技术,虽然它们都用于提高 GPU 性能和扩展性,但它们的目的和功能有所不同。
NVLink (NVL)
高带宽数据传输:
NVLink 提供比传统 PCIe 更高的带宽和更低的延迟。最新版本的 NVLink 4.0 的带宽可高达 900 GB/s(双向)。
多 GPU 互连:
NVLink 允许多个 GPU 通过 NVLink 桥接器互连,形成一个高效的计算集群。这在多 GPU 协同工作时特别有用,例如在深度学习训练和高性能计算任务中。
一致性内存访问:
NVLink 支持 GPU 之间的一致性内存访问,使多个 GPU 可以更高效地共享和访问数据。
应用场景:
主要用于需要多 GPU 高效协同工作的场景,如人工智能和深度学习、高性能计算(HPC)和数据中心等。
SXM
模块化设计:
SXM 是 NVIDIA 的 GPU 模块化设计。与传统的 PCIe 插槽不同,SXM 模块直接焊接到主板上,提供更高的电力供应和更好的散热性能。
更高的电力供应:
SXM 模块设计允许更高的功率输入,这对于高性能 GPU 来说至关重要。例如,NVIDIA 的 A100 和 H100 GPU 使用的 SXM 模块可以提供比 PCIe 插槽更高的功率。
更好的散热性能:
由于 SXM 模块直接与主板接触,可以实现更有效的散热设计。这在高密度数据中心和高性能计算环境中尤其重要。
紧密集成:
SXM 模块通常与 NVLink 结合使用,以实现更高效的多 GPU 互连和数据传输。这样可以最大化利用 GPU 的计算能力和带宽。
应用场景:
SXM 模块主要用于高性能计算环境,如超级计算机、数据中心以及需要紧密 GPU 集成的 AI 和深度学习服务器。