科学计算显卡

随笔1年前 (2024)发布小鑫鑫宝贝

0 0

显卡型号

A100：基于 Ampere 架构，发布于 2020 年。价格为 6～9 万。

架构：Ampere
制程工艺：7nm
CUDA 核心：6912
Tensor 核心：432
显存：40 GB 或 80 GB HBM2e，带宽高达 1.6 TB/s
峰值 FP64 性能：9.7 TFLOPS
峰值 FP32 性能：19.5 TFLOPS
混合精度性能：312 TFLOPS（TF32 with sparsity）
NVLink 带宽：600 GB/s（双向，使用 NVLink 3.0）
多实例 GPU (MIG)：支持将单个 A100 GPU 划分为最多 7 个独立的 GPU 实例，以提高资源利用率和灵活性。
功耗：300-400W（取决于具体型号和配置）

H100：基于 Hopper 架构，发布于 2022 年。

架构：Hopper
制程工艺：4nm
CUDA 核心：16896
Tensor 核心：528
显存：80 GB HBM3，带宽高达 3.2 TB/s
峰值 FP64 性能：30 TFLOPS
峰值 FP32 性能：60 TFLOPS
混合精度性能：1000 TFLOPS（FP16 with sparsity）
NVLink 带宽：900 GB/s（双向，使用 NVLink 4.0）
多实例 GPU (MIG)：支持将单个 H100 GPU 划分为最多 7 个独立的 GPU 实例。
Transformer Engine：专门优化 Transformer 模型的性能，加速自然语言处理任务。
功耗：300-700W（取决于具体型号和配置）

NVIDIA Datacenter GPUs

显卡算力排行榜（源自 AutoDL）：

科学计算显卡

接口类型

SXM4 和 PCIe

物理接口和安装方式

SXM4：

物理接口：SXM4 是一种专有的模块化接口，由 NVIDIA 设计用于高性能计算和深度学习加速卡。
安装方式：SXM4 GPU 通常安装在 NVIDIA DGX 系统或其他高性能服务器中，通过专用的插槽进行连接，确保高效的散热和电气性能。

PCIe：

物理接口：PCIe 是一种通用的接口标准，用于连接各种类型的扩展卡，包括 GPU、网卡、存储控制器等。
安装方式：PCIe GPU 通常插入主板上的 PCIe 插槽，用于台式机、工作站和服务器。

数据传输速率

SXM4：

高带宽：SXM4 使用 NVIDIA NVLink 技术，提供更高的带宽和更低的延迟。每个 NVLink 2.0 通道支持 25 GB/s 的双向带宽，多通道组合可提供数百 GB/s 的带宽。
低延迟：由于 NVLink 的高效互连设计，SXM4 GPU 间的数据传输延迟较低，有利于深度学习和高性能计算任务。

PCIe：

带宽受限：PCIe 4.0 每通道提供 2 GB/s 的带宽（双向），16 通道（x16）配置下总带宽为 32 GB/s（双向）。PCIe 5.0 的带宽翻倍，但仍不及 NVLink 提供的总带宽。
延迟相对较高：相比 NVLink，PCIe 的延迟较高，可能会影响高度并行计算任务的性能。

热管理和功耗

SXM4：

热管理：由于采用专用的模块化设计，SXM4 GPU 通常配备更高效的散热解决方案，包括水冷或更高级的风冷系统。
功耗：SXM4 GPU 通常具有更高的功耗上限，适用于需要极高计算性能的任务。

PCIe：

热管理：PCIe GPU 通常依赖于主板和机箱的散热方案，可能需要额外的散热器或风扇。
功耗：PCIe GPU 的功耗上限通常较低，适合一般的工作站和服务器环境。

适用场景

SXM4：

高性能计算（HPC）：适用于科学模拟、大规模并行计算任务。
深度学习：特别适用于需要高速互连和高带宽的深度学习训练和推理任务。
数据中心：常用于高性能计算集群和数据中心环境。

PCIe：

台式机和工作站：适用于一般的图形处理、游戏开发、视频编辑等任务。
服务器：用于不需要极高带宽和低延迟的服务器应用，如虚拟化、数据库等。

NVL 和 SXM

NVLink（NVL）和 SXM 是 NVIDIA 开发的两种不同的硬件技术，虽然它们都用于提高 GPU 性能和扩展性，但它们的目的和功能有所不同。

NVLink (NVL)

高带宽数据传输：
NVLink 提供比传统 PCIe 更高的带宽和更低的延迟。最新版本的 NVLink 4.0 的带宽可高达 900 GB/s（双向）。

多 GPU 互连：
NVLink 允许多个 GPU 通过 NVLink 桥接器互连，形成一个高效的计算集群。这在多 GPU 协同工作时特别有用，例如在深度学习训练和高性能计算任务中。

一致性内存访问：
NVLink 支持 GPU 之间的一致性内存访问，使多个 GPU 可以更高效地共享和访问数据。

应用场景：
主要用于需要多 GPU 高效协同工作的场景，如人工智能和深度学习、高性能计算（HPC）和数据中心等。

SXM

模块化设计：
SXM 是 NVIDIA 的 GPU 模块化设计。与传统的 PCIe 插槽不同，SXM 模块直接焊接到主板上，提供更高的电力供应和更好的散热性能。

更高的电力供应：
SXM 模块设计允许更高的功率输入，这对于高性能 GPU 来说至关重要。例如，NVIDIA 的 A100 和 H100 GPU 使用的 SXM 模块可以提供比 PCIe 插槽更高的功率。

更好的散热性能：
由于 SXM 模块直接与主板接触，可以实现更有效的散热设计。这在高密度数据中心和高性能计算环境中尤其重要。

紧密集成：
SXM 模块通常与 NVLink 结合使用，以实现更高效的多 GPU 互连和数据传输。这样可以最大化利用 GPU 的计算能力和带宽。

应用场景：
SXM 模块主要用于高性能计算环境，如超级计算机、数据中心以及需要紧密 GPU 集成的 AI 和深度学习服务器。

# 随笔

科学计算显卡

显卡型号

接口类型

SXM4 和 PCIe

NVL 和 SXM

达内 python+人工智能笔记[2024最新版]

探索图像重压缩方法的可能性！！！

相关文章

随机网址

猜你喜欢