최신 AI 워크로드는 전례 없는 데이터 처리량과 대규모 데이터 세트에 대한 저지연 접근을 요구합니다. CPU를 이용하여 NVMe SSD와 GPU 간의 데이터 이동에 의존하는 기존의 스토리지 아키텍처는 GPU 컴퓨팅 성능의 속도를 따라잡는 데 어려움을 겪고 있습니다. Solidigm™ D7-PS1010과 같은 데이터센터는 최대 14,500MB/s의 순차 읽기 속도를 제공하지만, SSD의 잠재력을 최대한 활용하려면 GPU가 로컬 및 분산 원격 시스템 전반에 걸쳐 스토리지와 상호작용하는 방식을 재고해야 합니다.
NVIDIA GPUDirect Storage(GDS)는 GPU와 NVMe SSD 간 직접 메모리 접근을 가능하게 하여 CPU 병목 현상을 제거합니다. NVIDIA Magnum IO SDK의 일부인 GDS는 CUDA와 같은 프레임워크와 통합되어 CPU/RAM 데이터 스테이징을 우회하고, 지연 시간을 줄이며, 중요한 관리 작업을 위해 CPU 리소스를 확보합니다.
GDS는 로컬 스토리지 접근을 최적화하는 반면, 최신 AI 인프라는 스토리지를 개별 GPU 노드와 분리하는 확장 가능한 솔루션을 요구합니다. NVIDIA 데이터 처리 장치(DPU)는 스토리지와 네트워크 작업을 오프로딩하고, DPU의 SNAP 프레임워크를 사용하는 원격 NVMe-over-Fabric(NVMe-oF) 에뮬레이션1을 가능하게 하여 이 격차를 극복합니다. Solidigm PCIe Gen5 SSD는 고속 패브릭을 통해 원격 드라이브를 가상화할 수 있으므로 GPU가 분산 스토리지 풀에 접근할 수 있습니다. 이 아키텍처는 GDS의 직접 데이터 경로와 DPU 기반 패브릭 확장성을 결합하여 AI 워크로드를 위한 통합된 솔루션을 제공합니다.
하드웨어
소프트웨어
두 개의 데이터 경로 비교
1. GDS 경로: GPU와 SSD 간의 직접 DMA 전송.
2. 기존 경로: SSD → CPU/RAM → GPU로의 데이터 이동
| 드라이브 | D7-P5520 - 7.68TB(PCIe Gen4) | |||
|---|---|---|---|---|
| 테스트 | GDS 경로 | CPU-GPU(기존 경로) | ||
| 입출력 크기 | 처리량(GiBps) | CPU_USR(%) | 처리량(GiBps) | CPU_USR(%) |
| 64KiB | 4.35 | 0.14 | 4.30 | 0.92 |
| 128KiB | 5.21 | 0.08 | 5.18 | 0.56 |
| 512KiB | 6.50 | 0.03 | 6.51 | 0.20 |
| 1024KiB | 6.59 | 0.02 | 6.64 | 0.12 |
| 4096KiB | 6.62 | 0.01 | 6.63 | 0.06 |
표 1. Solidigm D7-P5520 FW: 9CV10330(U.2, 7.68TB, PCIe 4.0)
| 드라이브 | D7-PS1010 - 7.68TB(PCIe Gen5) | |||
|---|---|---|---|---|
| 테스트 | GDS 경로 | CPU-GPU(기존 경로) | ||
| 입출력 크기 | 처리량(GiBps) | CPU_USR(%) | 처리량(GiBps) | CPU_USR(%) |
| 64KiB | 12.38 | 0.51 | 12.70 | 3.15 |
| 128KiB | 13.20 | 0.27 | 13.48 | 1.64 |
| 512KiB | 13.41 | 0.04 | 13.48 | 0.46 |
| 1024KiB | 13.48 | 0.02 | 13.48 | 0.29 |
| 4096KiB | 13.48 | 0.01 | 13.48 | 0.14 |
표 2. Solidigm D7-PS1010 FW: G77YG100(E1.S, 7.68TB, PCIe 5.0)
이 섹션에서는 NVIDIA Magnum IO GPUDirect Storage 및 NVIDIA NVMe SNAP을 포함하는 NVIDIA Magnum IO 아키텍처에서의 Solidigm SSD 성능을 시연합니다.1
DPU는 CPU로부터 인프라 작업(네트워킹, 스토리지, 보안)을 오프로딩하기 위해 설계된 특수 프로세서입니다. NVIDIA Bluefield DPU는 멀티코어 Arm CPU, 고속 네트워킹 및 하드웨어 가속기를 결합하여 데이터센터 효율성을 최적화합니다.
SNAP은 원격 SSD를 로컬 NVMe 드라이브처럼 가상화하는 DPU 가속 프레임워크입니다. NVIDIA DPU의 컨테이너에서 실행되는 SNAP은 로컬 NVMe 명령을 NVMe-oF 프로토콜 패킷으로 변환하여 원격 스토리지와 GPU 메모리 간의 직접적인 RDMA 전송을 가능하게 합니다.
NVMe-oF은 InfiniBand와 같은 네트워크를 통해 원격 스토리지 장치에 접근할 수 있도록 NVMe 프로토콜을 확장합니다. 이렇게 하면 공유 스토리지 풀, 확장 가능한 자원 할당이 가능해지고, GPU와 서버는 고성능 SSD가 마치 로컬에 연결된 것처럼 처리할 수 있습니다.
스토리지 서버
컴퓨팅 서버
두 개의 데이터 경로 비교
| 입출력 크기 | PCIe 4.0 – Solidigm D7-D5520 7.68TB FW: 9CV10330 | PCIe 5.0 – Solidigm D7-PS1010 7.68TB FW:G77YG100 | ||
|---|---|---|---|---|
| 직접 설정(GiBps) | 원격 설정(GiBps) | 직접 설정(GiBps) | 원격 설정(GiBps) | |
| 64KiB | 4.42 | 4.14 | 12.38 | 10.42 |
| 128KiB | 5.27 | 5.07 | 13.20 | 13.16 |
| 512KiB | 6.50 | 6.45 | 13.41 | 13.50 |
| 1024KiB | 6.58 | 6.70 | 13.48 | 13.85 |
| 4096KiB | 6.46 | 6.50 | 13.48 | 13.85 |
표 3. PCIe 4.0과 PCIe 5.0의 결과 비교
SNAP 대기열이 Solidigm D7-PS1010 E1.S 7.68TB에 미치는 영향
| SNAP 대기열 | 1 (GiBps) |
7 (GiBps) |
15 (GiBps) |
23 (GiBps) |
31(GiBps) |
|---|---|---|---|---|---|
| 64KiB | 6.77 | 8.06 | 9.48 | 9.78 | 10.68 |
| 128KiB | 9.18 | 11.1 | 12.68 | 12.73 | 12.93 |
| 512KiB | 9.44 | 11.15 | 12.53 | 13.06 | 13.09 |
| 1024KiB | 9.56 | 12.25 | 12.59 | 13.15 | 13.34 |
| 4096KiB | 10.57 | 12.56 | 13.48 | 13.67 | 13.73 |
표 4. SNAP 대기열의 영향
NVIDIA Bluefield DPU의 프로토콜 오프로딩 및 RDMA는 패브릭 오버헤드를 최소화하여 거의 로컬 수준의 처리량을 구현합니다. PCIe Gen4와 PCIe Gen5의 그래프에서 볼 수 있듯이, 원격 스토리지 설정의 처리량은 로컬 스토리지 설정의 처리량과 비슷합니다.
또한 블록 크기가 증가함에 따라 원격 스토리지 설정의 처리량이 로컬 스토리지 설정에 비해 약간 상승하는 것을 확인할 수 있습니다. 반면, 블록 크기가 작은 경우에는 작은 크기의 블록에 대해 패브릭에서 오버헤드가 높기 때문에 원격 스토리지 설정의 처리량이 약간 낮아집니다.
SNAP 대기열은 원격 스토리지 설정을 활성화할 때 고려해야 할 또 다른 중요한 요소입니다. SNAP 대기열의 수를 32로 늘리면 동시에 처리하는 I/O 요청이 더 많아 처리량이 향상되고, 다양한 대기열 크기에 대한 그래프에서 볼 수 있듯이 잠재적인 병목 현상이 줄어듭니다.
이 백서에서는 NVIDIA GPUDirect Storage가 Solidigm PCIe Gen5 SSD 및 DPU 기반 NVMe-oF 에뮬레이션1과 결합되어 원격 스토리지 성능이 로컬 NVMe 드라이브와 동등해질 수 있음을 보여줍니다. 이 아키텍처는 CPU 병목 현상을 없애고 고속 InfiniBand 패브릭을 통해 RDMA를 활용함으로써, 가속 성능을 저하시키지 않으면서 확장 가능하고 비용 효율적인 AI 인프라를 구현하며, 이를 통해 중앙 집중식 스토리지 풀이 GPU 워크로드 효율성을 유지하면서 로컬 드라이브를 대체할 수 있음을 보여줍니다.
기업은 스토리지와 컴퓨팅 노드를 분리하여 하드웨어의 무분별한 확산과 운영 비용을 줄이고, DPU 오프로딩을 통한 에너지 절감과 간소화된 데이터 경로를 통한 지속 가능한 확장을 지원할 수 있습니다. 이러한 접근 방식은 특히 공유 데이터세트에 대해 지연 시간 없는 접근이 매우 중요한 분산 학습 워크플로우 및 엣지 추론 배포에 매우 효과적입니다.
앞으로 800G 네트워킹, DPU 가속 컴퓨팅 스토리지의 발전, 그리고 Kubernetes와 ML 프레임워크의 더욱 심층적인 통합을 통해 이 아키텍처가 차세대 AI 데이터센터의 기반으로서 더욱 확고해질 수 있습니다.
기업은 GDS와 DPU를 도입하여 Solidigm PCIe Gen4 및/또는 Gen5 SSD를 통해 AI 인프라의 미래 경쟁력을 갖춤으로써 대량의 데이터 워크로드를 처리하고 RDMA 지원 패브릭을 배포하여 지연 시간을 최소화할 수 있습니다. 이 통합 아키텍처는 기업이 성능과 비용 효율성을 유지하면서 GPU 리소스를 확장하는 데 도움이 될 수 있습니다.
Ashwin Pai는 Solidigm의 시스템 검증 엔지니어로, 소프트웨어, 하드웨어 및 시스템 엔지니어링 분야에서 약 10년에 육박하는 경력을 보유하고 있습니다. 그는 AI 및 데이터 집약적 워크로드에 최적화된 플랫폼을 포함하여 다양한 플랫폼에 걸쳐 차세대 SSD 기술을 검증하는 데 주력하고 있습니다. Ashwin은 고급 AI 방법론과 획기적인 혁신 기술을 활용하여 다양한 기능을 넘나드는 팀과 협업하며 AI 기반 환경에서 Solidigm SSD의 기능을 향상시킵니다. 그는 VES Institute of Technology의 전자공학 학사 학위와 North Carolina State University의 컴퓨터 공학 석사 학위를 보유하고 있습니다.
Akhil Srinivas는 Solidigm의 전기 및 시스템 엔지니어입니다. 그는 업계를 선도하는 에코시스템 업체들과 협력하여 최첨단 스토리지 솔루션을 위한 Solidigm SSD를 검증합니다. 그는 새로운 AI 기술과 선구적인 혁신을 활용하여 Solidigm SSD를 차세대 플랫폼의 중요한 구성 요소로 자리매김하고, AI 분야의 파트너십을 강화합니다. 기업 활동 외에, 그는 전국의 유명한 푸드 트럭과 레스토랑을 탐방하는 미식 탐험을 즐깁니다. Akhil은 R.V. College of Engineering의 통신공학 학사 학위와 University of California, Davis의 전기컴퓨터공학 석사 학위를 보유하고 있습니다.
1. GDS 및 DOCA 설정 및 설치에 대해서는 다음 링크를 참조하십시오.
2. 실행된 워크로드
<T> 테스트 시간을 초 단위로 지정
<s> 데이터세트의 크기 설정
<I> 반복 횟수를 나타내며, 0은 일반적으로 테스트 완료 시간이 도달할 때까지 연속 또는 무한 반복을 의미함
<x> 전송 유형 정의, 0은 일반적으로 읽기 작업을 나타냄
<D> 테스트 파일을 저장할 디렉터리 경로 설정
<w> 테스트 도중 사용할 작업자 스레드의 수 지정
<d> 사용할 GPU 장치 ID, <i> I/O 크기 설정
3. 서버 관리 콘솔을 사용하여 서버 전력 소모량을 기록했습니다.
1. NVIDIA DOCA SNAP에서 에뮬레이션이란 호스트 시스템에서 실제 하드웨어처럼 작동하는 소프트웨어 기반 NVMe 장치를 생성하는 것을 의미합니다.
©2025, Solidigm. “Solidigm”은 SK hynix NAND Product Solutions Corp(d/b/a Solidigm)이 미국, 중국, 싱가포르, 일본, 유럽연합, 영국, 멕시코 및 기타 국가에 등록된 상표입니다.
기타 명칭 및 브랜드는 해당 소유 업체의 자산입니다.
Solidigm은 언제든 고지 없이 양 및 제품 설명을 변경할 수 있습니다.
테스트는 특정 시스템의 특정 시험에서 구성 요소의 성능을 기록한 것입니다.
하드웨어, 소프트웨어 또는 구성에 따른 차이점이 실제 성능에 영향을 미칠 수 있습니다.
구매를 고려할 때 다른 정보를 참고하여 성능을 평가하십시오.
이러한 결과는 잠정적인 결과이며 정보 제공 목적으로만 제공됩니다. 이러한 가치 및 주장은 최종적이거나 공식적이지 않습니다.
드라이브는 엔지니어링 샘플로 간주됩니다. 생산 지침은 로드맵을 참조하십시오.