本报告由西部数据赞助。本报告中表达的所有观点和意见均基于我们对所考虑产品的公正看法。
通过利用 NVMe-oF™,西部数据可以在多台服务器之间共享分解式高速存储,确保快速的数据访问和传输。OpenFlex Data24 与高性能 GPU 无缝集成,使其能够提供 AI 训练和推理所需的巨大吞吐量,使其成为下一代数据中心运营的关键推动因素。这些功能使 OpenFlex Data24 成为任何希望充分利用 AI 和其他高级计算工作负载潜力的组织的强大工具。
该机箱采用 2U 外形设计,可容纳多达 24 个双端口 U.2 NVMe SSD。该平台支持 PCIe® Gen4,其架构可充分利用每个 SSD 的性能,在整个机箱内保持高带宽。NVMe SSD 提供各种容量和耐用性选项,包括 Ultrastar® DC SN655 SSD,容量高达 15.36TB,总原始容量为 368TB¹。
该平台的设计消除了超额认购,确保了平衡的访问,同时保持了 NVMe 性能。Data24 4000 系列还集成了 RESTful API 支持,以简化管理,增强易用性和与现有 IT 基础架构的集成。
高可用性和企业级可靠性是 Data24 4000 系列的关键属性。双 I/O 模块和 N+2 风扇冗余等功能让您高枕无忧,即使在不可预见的组件故障期间也能确保持续运行。整个平台(包括 SSD)均享有 5 年有限保修。
为了充分发挥 OpenFlex Data24 的作用,我们必须整合几个关键组件:NVIDIA GPUDirect™、NVIDIA IndeX® 和高达 5.9TB 的龙卷风模拟数据。通过利用 NVIDIA GPUDirect,我们实现了 GPU 内存和 OpenFlex Data24 之间的直接通信,大大减少了延迟并最大化了数据吞吐量。利用 NVIDIA 的 IndeX,我们可以更高效地可视化和交互大量龙卷风数据集,展示系统的实时处理能力。此设置提供了一个完美的测试平台,用于展示 OpenFlex Data24 以惊人的速度和效率处理密集型 AI 工作负载和大规模数据处理的能力。
NVIDIA 高级技术营销经理 Harry Petty 表示:
“NVIDIA 的技术可实现低延迟和快速的存储数据传输,通过减少 GPU 空闲时间来优化 AI 工作负载的性能。这可缩短模型训练时间并提高结果准确性,从而加快发现速度并提高工作流程效率。”
GPUDirect 包含多项重要功能,包括 GPUDirect RDMA,它有助于在 GPU 和支持 RDMA 的网络适配器之间实现直接数据传输。这种直接通信对于需要快速数据交换的应用程序(例如科学模拟和大规模数据分析)至关重要。通过实现更快的数据传输,GPUDirect RDMA 可减少延迟并提高 GPU 集群的效率。此外,GPUDirect Storage 将 GPU 与高速存储系统更紧密地集成在一起,使数据密集型应用程序能够利用现代 NVMe 存储的最大带宽。这种集成可加速数据访问并减少等待数据加载到 GPU 内存中的时间,这对于实时分析和大规模机器学习工作负载至关重要。
GPUDirect 的功能在多个 GPU 协同工作的环境中尤其有效,例如深度学习训练集群。通过促进 GPU 之间的直接通信,GPUDirect 优化了并行处理并显著降低了与 GPU 间数据传输相关的开销。这种增强功能在训练复杂的神经网络时尤其有用,因为这种网络必须在多个 GPU 之间快速交换大量数据。GPUDirect 带来的效率提升在分子动力学模拟和流体动力学等应用中也很明显,在这些应用中,计算工作负载分布在众多 GPU 上以获得更快的结果。
IndeX 的功能源于其能够利用 GPU 的并行处理能力,从而高效地管理和呈现大规模体积数据。此功能在需要高分辨率可视化的应用中非常有用,例如石油和天然气领域的地震解释和油藏模拟。通过提供地下结构的详细和准确的视觉表示,IndeX 可帮助地质学家做出更明智的决策。在医学领域,IndeX 有助于从 MRI 和 CT 扫描等成像方式可视化复杂的解剖结构,从而帮助诊断和治疗计划。
IndeX 的实时渲染功能对于科学研究也至关重要,因为科学研究需要对来自模拟和实验的大量数据集进行可视化和分析。研究人员可以以交互方式操作和探索他们的数据,从而更快地进行假设检验和发现。IndeX 的可扩展性确保它可以处理由先进科学仪器和模拟产生的不断增长的数据量,为研究人员提供有效可视化和解释数据的工具。通过与现有工作流程无缝集成并支持各种数据格式,IndeX 提高了生产力并加快了跨多个学科的发现速度。
将 Data24 4000 系列与 NVIDIA GPUDirect 技术集成,通过简化 GPU 和存储之间的数据传输,显著提高了 GPU 密集型应用程序的性能。GPUDirect 促进了直接内存访问,允许数据移动绕过 CPU 和系统内存,以减少延迟并提高吞吐量。与 Data24 4000 系列的高性能 NVMe-oF 功能相结合,GPUDirect 可确保 GPU 能够快速访问存储在 NVMe SSD 上的大型数据集。
这种集成在 GPU 和存储之间的高速数据交换至关重要的环境中尤其有益,例如深度学习和科学模拟。Data24 4000 系列的低延迟和高带宽,加上 GPUDirect 支持的直接数据路径,可最大限度地缩短数据传输时间并提高 GPU 的利用率。这种协同作用可优化并行处理任务的性能,其中多个 GPU 需要快速且频繁地访问共享数据。
在本测试中,OpenFlex Data24 4000 和 GPU 服务器通过 200GbE 交换机连接,使用 NVMe-oF RoCEv2 协议,匹配的 MTU 为 5000。GPU 服务器使用 3 个 Mellanox® CX7 RNIC,每个 RNIC 有 2x 200 GbE。OpenFlex Data24 4000 配备 12x 100GbE 端口。每个 CX7 端口有 2 个 IP 地址,允许单个 CX7 映射到 Data24 上的四个端口。这为每个双端口驱动器上的所有 4 个 PCIe 通道提供了连接。6x 200 GbE 链路等于 12x 100GbE 链路的带宽潜力,适用于无阻塞网络架构。
每个 NVIDIA H100 通过 PCIe Gen5 x16 插槽连接,理论上可以实现双向 64GB/s 带宽。每个 200GbE 和 100GbE RNIC 端口理论上分别可以达到 25 GB/s 和 12.5 GB/s。一个关键的设计考虑因素是确保无阻塞架构。这要求 GPU、RNIC 和 NVMe-oF 驱动器都物理映射到同一个 CPU、NUMA 和 PLX 交换机上。这允许配置充分利用 GPUDirect。如本实现所示,第二个 CPU、NUMA 和 PLX 交换机上的镜像配置将允许可预测的计算规模和理论上的性能翻倍。
在 AI 训练集群中,Data24 4000 与 GPUDirect 的组合可通过减少与数据加载相关的瓶颈来缩短训练时间。高效的数据路径确保 GPU 能够不间断地连续接收数据,保持高处理速度并提高整体系统效率。此设置对于实时分析和其他需要快速数据访问和处理的应用程序也非常有利,可为各种计算工作负载提供显著的性能提升。
对于 NVIDIA IndeX 测试,我们采用了配备交换 PCIe 背板、一对 NVIDIA H521 和三张 NVIDIA ConnectX-100 网卡的 Supermicro 7GE-TNRT。
为此使用的基准测试工具是 GDSIO,这是一款专门的 NVIDIA 专有实用程序,旨在测量 GPU 直接存储 (GDS) 环境中的存储性能。我们研究了本轮测试的几种配置:带有 12 个驱动器和 24 个驱动器的单个 GPU,以及带有 24 个驱动器的两个 GPU。
Western Digital OpenFlex Data24 在 GDSIO 性能测试中的表现与 NVIDIA H100 GPU 搭配使用,揭示了驱动器的原始功率。当配置 12 个驱动器和单个 GPU 时,系统实现了 44.14 GB/s 的写入带宽。在使用一个 GPU 的情况下将驱动器数量增加到 24 个时,写入性能略有改善,达到 54.15 GB/s。在 24 个驱动器设置中引入第二个 GPU 可实现大幅提升,将写入带宽提升至 87.91 GB/s。
读取性能也呈现出类似的趋势。12 个驱动器、一个 GPU 的配置产生了 53.47 GB/s 的读取带宽。扩展到 24 个驱动器和一个 GPU 后,读取带宽略微增加到 54.75 GB/s。然而,最显著的改进来自双 GPU 设置,系统实现了令人印象深刻的 101.14 GB/s 读取带宽。这些结果强调了 OpenFlex Data24 能够随着驱动器数量的增加而可预测地扩展。
添加 GPU 对最大化性能起着至关重要的作用。24 个驱动器和两个 GPU 的配置是最佳设置,可为读写操作提供最高带宽。此测试强调了 GPU 加速在充分利用 GDSIO 框架潜力方面的重要性。OpenFlex Data24 与 NVIDIA H100 GPU 搭配使用时表现出卓越的性能,使其成为要求苛刻的存储环境的强大解决方案。
对于 AI 工作负载,快速的数据提取和处理至关重要,OpenFlex Data24 的性能可以显著缩短训练时间并更高效地处理大型数据集。将数据从存储快速移动到 GPU 内存的能力确保充分利用强大的 GPU 的计算资源,从而促进更快、更高效的模型训练和推理。
NVIDIA GPU 和 NVIDIA IndeX 的使用彻底改变了这一领域。科学家现在可以实时执行体积可视化。我们在 Supermicro 系统上运行的 H100 模拟(由 OpenFlex Data24 提供数据)展示了 Leigh Orf 教授模拟的 2011 年俄克拉荷马州风暴。该模拟从龙卷风形成前的初始条件中数学推导而来,包括 250 亿个网格点,每个网格点都有十多个属性,例如降雨、冰雹、压力和风速。这个详细的可视化显示了 6000 个模拟步骤,为龙卷风的动态提供了前所未有的洞察力。
此次模拟的关键是 NanoVDB,这是一种紧凑的稀疏卷数据结构,通过将数据直接映射到 GPU 的内存中,可以减少数据集大小和内存占用。结合 GPUDirect Storage 技术和 OpenFlex Data24,我们实现了高达 89GB/s 的速度,可以以每秒超过 13 帧的速度查看结果。这相当于每 5.9 秒提取约 66TB 的数据集。这种组合允许轻松进行交互式导航、动态参数调整和模拟清理。
速度至关重要,但逼真的质量对于验证模拟的准确性也至关重要。如果模拟和现实不一致,则必须纠正模型。NVIDIA Iray 是一款基于 GPU 的路径追踪器,可渲染物理上正确的光传输,与 NVIDIA IndeX 体积数据一起使用来支持此可视化。龙卷风的漏斗、地面接触以及云水比和雨水等细节元素(以蓝灰色孔隙表示)清晰可见。
Western Digital 的架构支持开放式可组合基础设施 (OCI),OpenFlex Data24 4000 平台利用这种 OCI 方法,通过使用 NVMe-over-Fabrics (NVMe-oF) 分解数据存储。将存储资源与 GPU 服务器分离不仅有助于释放服务器的资源(从传统的步调一致升级中释放这些资源),而且这样做还可以对 NVMe 驱动器到 GPU 的映射进行微调。这种与 GPU 要求精确匹配的驱动器可以密切解决 GPU 功能、性能和数据容量需求,从而提供这些资源所需的可预测规模和灵活性。
由于数据不再孤立,它成为可访问的网络存储资源,可以根据需要在多个 GPU 服务器之间共享,从而进一步提高灵活性。
Western Digital OpenFlex Data24 与 NVIDIA GPUDirect 技术相结合,在处理 AI 和其他 GPU 加速工作负载方面展现出强大的能力。通过在 GPU 内存和 NVMe 存储之间启用直接数据路径,Data24 可显著降低延迟并最大化带宽,从而确保高效的数据处理和最佳的 GPU 利用率。这种集成可以更快、更有效地处理大规模数据集,使 Data24 成为现代数据密集型环境中的宝贵资产。
我们的真实测试涉及大量龙卷风模拟数据集,展示了通过此设置实现的显著性能提升。OpenFlex Data24 能够提供高吞吐量和低延迟数据传输,再加上 NVIDIA IndeX 的实时可视化功能,凸显了其在 AI 训练、科学模拟和实时分析等要求苛刻的应用中的潜力。
利用 Data24 系列和 GPUDirect 技术进行 AI 训练集群,可以确保数据从存储无缝流向 GPU,从而显著缩短训练时间。此设置可最大限度地减少瓶颈并提高整体系统效率,使其成为追求更快、更准确的 AI 模型的关键组件。
除了 AI 之外,OpenFlex Data24 的优势还扩展到其他 GPU 加速工作负载,包括高性能计算和实时数据分析。该平台降低了延迟并提高了吞吐量,确保需要快速访问和处理数据的应用程序能够以最佳性能运行,从而及时提供精确的结果。
请于 6 年 8 月 2024 日至 2024 日在 FMS 607 展位#XNUMX 观看此演示。
[1] XNUMX 兆兆字节 (TB) 等于 XNUMX 万亿字节。实际用户容量可能因操作环境而有所减少。
参与 StorageReview
值得信赖的供应商
我们的附属合作伙伴提供的产品和解决方案:
订阅消息
如果您是人,则将此字段留空:
内容分类
为了提供最佳体验,我们和我们的合作伙伴使用 cookie 等技术来存储和/或访问设备信息。 同意这些技术将使我们和我们的合作伙伴能够处理个人数据,例如浏览行为或本网站的唯一 ID 并显示(非)个性化广告。 不同意或撤回同意,可能会对某些特性和功能产生不利影响。
单击下面以同意上述内容或进行细化选择。 您的选择将仅适用于本网站。 您可以随时更改您的设置,包括撤销您的同意,方法是使用 Cookie 政策上的切换按钮,或单击屏幕底部的管理同意按钮。