고성능 스토리지로 AI 가속화

NVIDIA® Magnum IO 아키텍처를 탑재한 Solidigm™ SSD, GPUDirect® 스토리지 및 NVIDIA Bluefield®- 3 데이터 처리 장치(Data Processing Unit) 기반 NVMe 에뮬레이션 포함

NVIDIA GDS를 탑재한 Solidigm SSD의 성능 대 CPU-GPU 데이터 경로

GPU 및 스토리지 병목 현상

최신 AI 워크로드는 전례 없는 데이터 처리량과 대규모 데이터 세트에 대한 저지연 접근을 요구합니다. CPU를 이용하여 NVMe SSD와 GPU 간의 데이터 이동에 의존하는 기존의 스토리지 아키텍처는 GPU 컴퓨팅 성능의 속도를 따라잡는 데 어려움을 겪고 있습니다. Solidigm™ D7-PS1010과 같은 데이터센터는 최대 14,500MB/s의 순차 읽기 속도를 제공하지만, SSD의 잠재력을 최대한 활용하려면 GPU가 로컬 및 분산 원격 시스템 전반에 걸쳐 스토리지와 상호작용하는 방식을 재고해야 합니다.

NVIDIA GPUDirect Storage(GDS)

NVIDIA GPUDirect Storage(GDS)는 GPU와 NVMe SSD 간 직접 메모리 접근을 가능하게 하여 CPU 병목 현상을 제거합니다. NVIDIA Magnum IO SDK의 일부인 GDS는 CUDA와 같은 프레임워크와 통합되어 CPU/RAM 데이터 스테이징을 우회하고, 지연 시간을 줄이며, 중요한 관리 작업을 위해 CPU 리소스를 확보합니다.

NVIDIA DPU를 통해 GDS를 원격 스토리지로 확장

GDS는 로컬 스토리지 접근을 최적화하는 반면, 최신 AI 인프라는 스토리지를 개별 GPU 노드와 분리하는 확장 가능한 솔루션을 요구합니다. NVIDIA 데이터 처리 장치(DPU)는 스토리지와 네트워크 작업을 오프로딩하고, DPU의 SNAP 프레임워크를 사용하는 원격 NVMe-over-Fabric(NVMe-oF) 에뮬레이션¹을 가능하게 하여 이 격차를 극복합니다. Solidigm PCIe Gen5 SSD는 고속 패브릭을 통해 원격 드라이브를 가상화할 수 있으므로 GPU가 분산 스토리지 풀에 접근할 수 있습니다. 이 아키텍처는 GDS의 직접 데이터 경로와 DPU 기반 패브릭 확장성을 결합하여 AI 워크로드를 위한 통합된 솔루션을 제공합니다.

시스템 구성

하드웨어

서버: Supermicro ARS-111GL-NHR
CPU/GPU:- Grace Hopper 200
SSD: Solidigm™ D7-PS1010(E1.S, 7.68TB, PCIe 5.0) & Solidigm™ D7-P5520(U.2, 7.68TB, PCIe 4.0)

소프트웨어

OS: Ubuntu 22.04.5 LTS
Kernel: 6.8.0-1021-nvidia-64k
Cuda: 12.6
GDSIO: 1.11

방법

두 개의 데이터 경로 비교

1. GDS 경로: GPU와 SSD 간의 직접 DMA 전송.

2. 기존 경로: SSD → CPU/RAM → GPU로의 데이터 이동

NVIDIA GDS를 사용한 데이터 경로 및 NVIDIA GDS를 사용하지 않는 데이터 경로

그림 1. GPU와 SSD 간의 직접 DMA 전송을 사용하는 GDS 경로 대 그림 2. GDS를 사용하지 않는 기존 경로

벤치마크 파라미터

블록 크기: 64KiB, 128KiB, 512KiB, 1024KiB, 4096KiB
워크로드: 순차 읽기
큐뎁스(QD): 24/32
측정 항목: 처리량(GB/s), CPU USR 활용(%)
런타임: 45초
서버 전력 소모량(Watts)

결과

드라이브	D7-P5520 - 7.68TB(PCIe Gen4)
테스트	GDS 경로		CPU-GPU(기존 경로)
입출력 크기	처리량(GiBps)	CPU_USR(%)	처리량(GiBps)	CPU_USR(%)
64KiB	4.35	0.14	4.30	0.92
128KiB	5.21	0.08	5.18	0.56
512KiB	6.50	0.03	6.51	0.20
1024KiB	6.59	0.02	6.64	0.12
4096KiB	6.62	0.01	6.63	0.06

표 1. Solidigm D7-P5520 FW: 9CV10330(U.2, 7.68TB, PCIe 4.0)

드라이브	D7-PS1010 - 7.68TB(PCIe Gen5)
테스트	GDS 경로		CPU-GPU(기존 경로)
입출력 크기	처리량(GiBps)	CPU_USR(%)	처리량(GiBps)	CPU_USR(%)
64KiB	12.38	0.51	12.70	3.15
128KiB	13.20	0.27	13.48	1.64
512KiB	13.41	0.04	13.48	0.46
1024KiB	13.48	0.02	13.48	0.29
4096KiB	13.48	0.01	13.48	0.14

표 2. Solidigm D7-PS1010 FW: G77YG100(E1.S, 7.68TB, PCIe 5.0)

Solidigm D7-P5520의 NVIDIA GDS 처리량과 CPU-GPU 비교.

그림 3. Solidigm D7-P5520 처리량

Solidigm D7-P5520의 NVIDIA GDS 활용과 CPU-GPU 비교.

그림 4. Solidigm D7-P5520 활용

Solidigm D7-PS1010의 NVIDIA GDS 처리량과 CPU-GPU 비교.

그림 5. Solidigm D7-PS1010 처리량

그림 6. Solidigm D7-PS1010 활용

NVIDIA GDS 대 CPU-GPU의 100회 주기 동안의 평균 서버 전력 소모량(Watts).

그림 7. 100회 주기 동안의 평균 서버 전력 소모량(Watts)

핵심 요점 및 분석

GDS는 모든 블록 크기에 걸쳐 기존의 CPU-GPU 경로와 비슷한 성능과 처리량을 꾸준히 달성합니다.
GDS가 CPU를 사용하여 RAM에 중복 데이터 복사를 방지함으로써 CPU 사용을 줄이고, 애플리케이션 작업에 필요한 코어를 확보한다는 점에 주목합니다.
GDS 워크로드를 실행하는 동안에도 CPU-GPU 워크로드와 비교하여 서버 전력 소모량이 약 7와트 가량 낮음을 확인할 수 있습니다. 이 데이터는 여러 번의 실행(100회 주기)에서 일관되게 나타납니다.

NVIDIA Magnum IO 아키텍처를 통한 원격 스토리지 성능

이 섹션에서는 NVIDIA Magnum IO GPUDirect Storage 및 NVIDIA NVMe SNAP을 포함하는 NVIDIA Magnum IO 아키텍처에서의 Solidigm SSD 성능을 시연합니다.¹

NVIDIA 데이터 처리 장치(DPU)

DPU는 CPU로부터 인프라 작업(네트워킹, 스토리지, 보안)을 오프로딩하기 위해 설계된 특수 프로세서입니다. NVIDIA Bluefield DPU는 멀티코어 Arm CPU, 고속 네트워킹 및 하드웨어 가속기를 결합하여 데이터센터 효율성을 최적화합니다.

소프트웨어 정의 NVMe 액세스 프로토콜(SNAP)

SNAP은 원격 SSD를 로컬 NVMe 드라이브처럼 가상화하는 DPU 가속 프레임워크입니다. NVIDIA DPU의 컨테이너에서 실행되는 SNAP은 로컬 NVMe 명령을 NVMe-oF 프로토콜 패킷으로 변환하여 원격 스토리지와 GPU 메모리 간의 직접적인 RDMA 전송을 가능하게 합니다.

NVMe 오버 패브릭(NVMe-oF)

NVMe-oF은 InfiniBand와 같은 네트워크를 통해 원격 스토리지 장치에 접근할 수 있도록 NVMe 프로토콜을 확장합니다. 이렇게 하면 공유 스토리지 풀, 확장 가능한 자원 할당이 가능해지고, GPU와 서버는 고성능 SSD가 마치 로컬에 연결된 것처럼 처리할 수 있습니다.

그림 8. Solidigm SSD를 사용하는 NVIDIA Magnum IO 아키텍처

엔드투엔드 워크플로우

호스트 서버가 GDS를 통해 순차 읽기 시작
GPU 서버는 NVIDIA GPUDirect Storage(GDS)를 활용하도록 설계된 벤치마킹 도구인 ‘gdsio’를 사용하여 순차 읽기 작업을 시작합니다. 이 도구는 CPU와 시스템 메모리를 완전히 우회하여 GPU의 메모리 공간에서 DPU 에뮬레이션된¹ NVMe 드라이브로 네이티브 NVMe 읽기 명령을 실행합니다.
DPU가 NVMe 명령을 가로채고 변환
에뮬레이션된¹ NVMe 드라이브의 컨트롤러 역할을 하는 DPU가 NVMe 읽기 명령을 가로챕니다. 통합 SNAP 프레임워크를 사용하는 DPU는 이러한 명령을 NVMe-oF 프로토콜 패킷으로 변환합니다. 이 변환은 로컬 NVMe 동작의 의미를 유지하면서 네트워크를 통한 원격 스토리지 액세스에 맞게 조정합니다.
패브릭을 통한 RDMA 전송
변환된 NVMe-oF 명령은 고속 InfiniBand RDMA 패브릭을 통해 전송되며, 이 패브릭은 GPU 서버와 물리적인 Solidigm PCIe Gen5 SSD가 보관된 원격 스토리지 서버를 연결합니다. 데이터는 호스트 메모리의 중간 단계 없이 원격 SSD에서 GPU 메모리 버퍼로 직접 흐릅니다.
직접 GPU 메모리 배치
DPU의 SNAP 프레임워크는 검색된 데이터가 RDMA를 통해 GPU 메모리에 직접 배치되도록 보장하여 읽기 작업을 완료합니다. 이러한 엔드투엔드 경로는 CPU 개입을 없애고, 거의 로컬과 같은 지연 시간을 유지하며 처리량을 극대화합니다.
SNAP 대기열
소프트웨어 정의 네트워크 가속 처리(Storage-Defined Network Accelerated Processing, SNAP) 대기열은 I/O 작업의 병렬 처리를 가능하게 하여 처리량을 향상시키고 지연 시간을 줄입니다. 1개의 대기열 대신 32개의 대기열을 사용하면 여러 코어에 걸쳐 부하를 더 균형 있게 분산시켜 병목 현상을 방지하고 성능을 향상시킬 수 있습니다. 이러한 설정은 트래픽이 많은 애플리케이션을 효과적으로 처리하고, 더 빠른 응답 속도와 확장성을 보장하는 데 매우 중요합니다.

성능 벤치마크: 원격 스토리지와 로컬 스토리지

원격 설정을 위한 시스템 구성

스토리지 서버

서버: Supermicro AS1115C-TNR
CPU: AMD EPYC 9124(PCIe 5.0)
DPU/NIC: B3140 Bluefield DPU 3
SSD:
Solidigm D7-PS1010(E1.S, 7.68 TB, PCIe 5.0)
Solidigm D7-P5520(U.2, 7.68TB, PCIe 4.0)
OS: Ubuntu 20.04.6 LTS
Kernel: 5.4.0-205-generic

컴퓨팅 서버

서버: Supermicro ARS-111GL-NHR
CPU/GPU: Grace Hopper 200
DPU: B3240 Bluefield DPU 3
OS: Ubuntu 22.04.5 LTS
Kernel: 6.8.0-1021-nvidia-64k
Cuda: 12.6
GDSIO: 1.11

방법

두 개의 데이터 경로 비교

로컬 스토리지: GDS를 통해 액세스하는 직접 연결 SSD.
원격 스토리지: GDS를 통해 DPU가 에뮬레이션한¹ NVMe-oF 드라이브(InfiniBand 기반 SSD).

벤치마크 파라미터

블록 크기: 64KiB, 128KiB, 512KiB, 1024KiB, 4096KiB
SNAP 대기열: 1, 7, 15, 23, 31
워크로드: 순차 읽기
큐뎁스(QD): 24/32
측정 항목: 처리량(GB/s)
런타임: 45초

결과

입출력 크기	PCIe 4.0 – Solidigm D7-D5520 7.68TB FW: 9CV10330		PCIe 5.0 – Solidigm D7-PS1010 7.68TB FW:G77YG100
입출력 크기	직접 설정(GiBps)	원격 설정(GiBps)	직접 설정(GiBps)	원격 설정(GiBps)
64KiB	4.42	4.14	12.38	10.42
128KiB	5.27	5.07	13.20	13.16
512KiB	6.50	6.45	13.41	13.50
1024KiB	6.58	6.70	13.48	13.85
4096KiB	6.46	6.50	13.48	13.85

표 3. PCIe 4.0과 PCIe 5.0의 결과 비교

SNAP 대기열이 Solidigm D7-PS1010 E1.S 7.68TB에 미치는 영향

SNAP 대기열	1 (GiBps)	7 (GiBps)	15 (GiBps)	23 (GiBps)	31(GiBps)
64KiB	6.77	8.06	9.48	9.78	10.68
128KiB	9.18	11.1	12.68	12.73	12.93
512KiB	9.44	11.15	12.53	13.06	13.09
1024KiB	9.56	12.25	12.59	13.15	13.34
4096KiB	10.57	12.56	13.48	13.67	13.73

표 4. SNAP 대기열의 영향

Solidigm D7-P5520의 직접 설정과 원격 설정 시 처리량 비교.

그림 9. Solidigm D7-P5520 처리량

Solidigm D7-PS-1010의 직접 설정과 원격 설정 시 처리량 비교.

그림 10. Solidigm D7-PS1010 처리량

그림 11. SNAP 대기열 영향

핵심 요점 및 분석

1. 처리량 패리티

NVIDIA Bluefield DPU의 프로토콜 오프로딩 및 RDMA는 패브릭 오버헤드를 최소화하여 거의 로컬 수준의 처리량을 구현합니다. PCIe Gen4와 PCIe Gen5의 그래프에서 볼 수 있듯이, 원격 스토리지 설정의 처리량은 로컬 스토리지 설정의 처리량과 비슷합니다.

2. 블록 크기 영향

또한 블록 크기가 증가함에 따라 원격 스토리지 설정의 처리량이 로컬 스토리지 설정에 비해 약간 상승하는 것을 확인할 수 있습니다. 반면, 블록 크기가 작은 경우에는 작은 크기의 블록에 대해 패브릭에서 오버헤드가 높기 때문에 원격 스토리지 설정의 처리량이 약간 낮아집니다.

3. SNAP 대기열 영향

SNAP 대기열은 원격 스토리지 설정을 활성화할 때 고려해야 할 또 다른 중요한 요소입니다. SNAP 대기열의 수를 32로 늘리면 동시에 처리하는 I/O 요청이 더 많아 처리량이 향상되고, 다양한 대기열 크기에 대한 그래프에서 볼 수 있듯이 잠재적인 병목 현상이 줄어듭니다.

결론 및 향후 방향

이 백서에서는 NVIDIA GPUDirect Storage가 Solidigm PCIe Gen5 SSD 및 DPU 기반 NVMe-oF 에뮬레이션¹과 결합되어 원격 스토리지 성능이 로컬 NVMe 드라이브와 동등해질 수 있음을 보여줍니다. 이 아키텍처는 CPU 병목 현상을 없애고 고속 InfiniBand 패브릭을 통해 RDMA를 활용함으로써, 가속 성능을 저하시키지 않으면서 확장 가능하고 비용 효율적인 AI 인프라를 구현하며, 이를 통해 중앙 집중식 스토리지 풀이 GPU 워크로드 효율성을 유지하면서 로컬 드라이브를 대체할 수 있음을 보여줍니다.

AI 인프라에 대한 영향

기업은 스토리지와 컴퓨팅 노드를 분리하여 하드웨어의 무분별한 확산과 운영 비용을 줄이고, DPU 오프로딩을 통한 에너지 절감과 간소화된 데이터 경로를 통한 지속 가능한 확장을 지원할 수 있습니다. 이러한 접근 방식은 특히 공유 데이터세트에 대해 지연 시간 없는 접근이 매우 중요한 분산 학습 워크플로우 및 엣지 추론 배포에 매우 효과적입니다.

앞으로 800G 네트워킹, DPU 가속 컴퓨팅 스토리지의 발전, 그리고 Kubernetes와 ML 프레임워크의 더욱 심층적인 통합을 통해 이 아키텍처가 차세대 AI 데이터센터의 기반으로서 더욱 확고해질 수 있습니다.

권장 사항

기업은 GDS와 DPU를 도입하여 Solidigm PCIe Gen4 및/또는 Gen5 SSD를 통해 AI 인프라의 미래 경쟁력을 갖춤으로써 대량의 데이터 워크로드를 처리하고 RDMA 지원 패브릭을 배포하여 지연 시간을 최소화할 수 있습니다. 이 통합 아키텍처는 기업이 성능과 비용 효율성을 유지하면서 GPU 리소스를 확장하는 데 도움이 될 수 있습니다.

저자 소개

Ashwin Pai는 Solidigm의 시스템 검증 엔지니어로, 소프트웨어, 하드웨어 및 시스템 엔지니어링 분야에서 약 10년에 육박하는 경력을 보유하고 있습니다. 그는 AI 및 데이터 집약적 워크로드에 최적화된 플랫폼을 포함하여 다양한 플랫폼에 걸쳐 차세대 SSD 기술을 검증하는 데 주력하고 있습니다. Ashwin은 고급 AI 방법론과 획기적인 혁신 기술을 활용하여 다양한 기능을 넘나드는 팀과 협업하며 AI 기반 환경에서 Solidigm SSD의 기능을 향상시킵니다. 그는 VES Institute of Technology의 전자공학 학사 학위와 North Carolina State University의 컴퓨터 공학 석사 학위를 보유하고 있습니다.

Akhil Srinivas는 Solidigm의 전기 및 시스템 엔지니어입니다. 그는 업계를 선도하는 에코시스템 업체들과 협력하여 최첨단 스토리지 솔루션을 위한 Solidigm SSD를 검증합니다. 그는 새로운 AI 기술과 선구적인 혁신을 활용하여 Solidigm SSD를 차세대 플랫폼의 중요한 구성 요소로 자리매김하고, AI 분야의 파트너십을 강화합니다. 기업 활동 외에, 그는 전국의 유명한 푸드 트럭과 레스토랑을 탐방하는 미식 탐험을 즐깁니다. Akhil은 R.V. College of Engineering의 통신공학 학사 학위와 University of California, Davis의 전기컴퓨터공학 석사 학위를 보유하고 있습니다.

부록

1. GDS 및 DOCA 설정 및 설치에 대해서는 다음 링크를 참조하십시오.

2. 실행된 워크로드

gdsio -T 45 -s 512M -I 0 -x 0 -D /mnt -w 32 -d 0 -i 64k
gdsio -T 45 -s 512M -I 0 -x 0 -D /mnt -w 32 -d 0 -i 128k
gdsio -T 45 -s 2048M -I 0 -x 0 -D /mnt -w 24 -d 0 -i 512k
gdsio -T 45 -s 2048M -I 0 -x 0 -D /mnt -w 24 -d 0 -i 1024k
gdsio -T 45 -s 2048M -I 0 -x 0 -D /mnt -w 24 -d 0 -i 4096k

<T> 테스트 시간을 초 단위로 지정

<s> 데이터세트의 크기 설정

<I> 반복 횟수를 나타내며, 0은 일반적으로 테스트 완료 시간이 도달할 때까지 연속 또는 무한 반복을 의미함

<x> 전송 유형 정의, 0은 일반적으로 읽기 작업을 나타냄

<D> 테스트 파일을 저장할 디렉터리 경로 설정

<w> 테스트 도중 사용할 작업자 스레드의 수 지정

<d> 사용할 GPU 장치 ID, <i> I/O 크기 설정

3. 서버 관리 콘솔을 사용하여 서버 전력 소모량을 기록했습니다.

참고

1. NVIDIA DOCA SNAP에서 에뮬레이션이란 호스트 시스템에서 실제 하드웨어처럼 작동하는 소프트웨어 기반 NVMe 장치를 생성하는 것을 의미합니다.

면책 조항

기타 명칭 및 브랜드는 해당 소유 업체의 자산입니다.

Solidigm은 언제든 고지 없이 양 및 제품 설명을 변경할 수 있습니다.

테스트는 특정 시스템의 특정 시험에서 구성 요소의 성능을 기록한 것입니다.

하드웨어, 소프트웨어 또는 구성에 따른 차이점이 실제 성능에 영향을 미칠 수 있습니다.

구매를 고려할 때 다른 정보를 참고하여 성능을 평가하십시오.

이러한 결과는 잠정적인 결과이며 정보 제공 목적으로만 제공됩니다. 이러한 가치 및 주장은 최종적이거나 공식적이지 않습니다.

드라이브는 엔지니어링 샘플로 간주됩니다. 생산 지침은 로드맵을 참조하십시오.

고성능 스토리지로 AI 가속화

NVIDIA® Magnum IO 아키텍처를 탑재한 Solidigm™ SSD, GPUDirect® 스토리지 및 NVIDIA Bluefield®- 3 데이터 처리 장치(Data Processing Unit) 기반 NVMe 에뮬레이션 포함

NVIDIA GDS를 탑재한 Solidigm SSD의 성능 대 CPU-GPU 데이터 경로

GPU 및 스토리지 병목 현상

NVIDIA GPUDirect Storage(GDS)

NVIDIA DPU를 통해 GDS를 원격 스토리지로 확장

시스템 구성

방법

벤치마크 파라미터

결과

핵심 요점 및 분석

NVIDIA Magnum IO 아키텍처를 통한 원격 스토리지 성능

NVIDIA 데이터 처리 장치(DPU)

소프트웨어 정의 NVMe 액세스 프로토콜(SNAP)

NVMe 오버 패브릭(NVMe-oF)

엔드투엔드 워크플로우

성능 벤치마크: 원격 스토리지와 로컬 스토리지

원격 설정을 위한 시스템 구성

방법

벤치마크 파라미터

결과

핵심 요점 및 분석

1. 처리량 패리티

2. 블록 크기 영향

3. SNAP 대기열 영향

결론 및 향후 방향

AI 인프라에 대한 영향

권장 사항

저자 소개

부록

참고

면책 조항

관련 기사

AI 워크로드용 SolidigmTM S3 퓨즈 조사 및 개념 증명 설계

AI 학습 성능 솔루션 개요

Alluxio와 Solidigm, AI 워크로드용 고급 캐시 솔루션 개발 위해 협력