Solidigm™ 솔리드 스테이트 드라이브로 AI 워크로드 최적화

MLPerf 추론, 학습 및 스토리지에서 얻은 성능 분석 결과

요약문

인공 지능(AI) 워크로드의 발전으로 인해 학습 및 추론 작업 전반에 걸쳐 성능을 최적화하기 위한 효율적인 스토리지와 컴퓨팅 솔루션에 대한 수요가 증폭되었습니다. 본 연구는 Inference v4.1, Training v4.1, 그리고 Storage v1.0의 MLPerf 벤치마크를 활용하여 Solidigm SSD, 특히 D7-PS1010(PCIe Gen5), D5-P5336(PCIe Gen4) 및 D3-S4520(SATA)이 AI 효율성에 미치는 영향을 평가합니다. 결과에 따르면 추론 성능은 주로 GPU 기능과 메모리 대역폭에 따라 다르기 때문에 디스크 구성에 의해 크게 영향을 받지 않으며, SSD를 추가해도 성능이 대폭적으로 향상되지 않는 것으로 나타났습니다. 그에 반해서 특히 DLRMv2와 같은 데이터 집약적인 모델의 학습 워크로드는 고속 NVMe SSD를 통한 실질적 성능 개선을 보이며, 디스크 수가 적은 구성에서는 D7-PS1010이 D5-P5336보다 우수한 성능을 보이지만, 디스크 수를 확장할수록 일정 수준에서 더 이상 개선되지 않습니다. MLPerf Storage 벤치마크는 SATA 대비 NVMe의 우수성을 재차 확인합니다. D7-PS1010은 D5-P5336과 비교하여 더 적은 수의 디스크로도 최대의 처리량을 달성한 반면, D3-S4520은 최신 AI 수요에는 부족한 것으로 드러났습니다. 이러한 결과는 학습에는 고성능 NVMe와 추론에는 컴퓨팅 최적화에 중점을 둔 맞춤형 스토리지 전략의 필요성을 강조하여 AI 시스템 효율을 극대화하는 데 있어 인프라 균형의 핵심적인 역할을 부각합니다.

소개

갈수록 복잡해지는 인공 지능(AI) 워크로드는 시스템 성능에 대한 전례없는 수요를 발생시키므로 스토리지와 컴퓨팅 구성 요소가 효율성에 미치는 영향을 세밀하고 깊이 이해해야 합니다. MLPerf 벤치마킹 모음집(Inference, Training 및 Storage)은 다양한 하드웨어 구성 전반에 걸쳐 AI 시스템 성능을 평가하기 위한 표준화된 프레임워크를 제공하여 이러한 워크로드를 최적화하는 데 핵심적인 인사이트를 제공합니다. 

MLPerf Inference는 실시간 예측 작업을 평가하는데, 이러한 작업의 효율성은 모델 실행 속도에 달려 있어(일반적으로 메모리 내) 디스크 성능은 부차적인 요소가 됩니다. 반대로 MLPerf Training은 AI 모델을 처음부터 구축하는 과정을 살펴봅니다. 이 단계는 특히 추천 시스템과 이미지 처리와 같은 작업의 경우, 과도한 데이터 접근 요구 사항으로 인해 스토리지 처리량에 크게 의존합니다. MLPerf Storage 벤치마크는 이러한 측면을 보완하면서 AI에 특화된 데이터 파이프라인 환경에서 스토리지 성능을 분리하여 데이터 집약적인 애플리케이션의 확장 가능하고 처리량이 높은 솔루션에 대해 증가하는 요구를 해결합니다.

본 연구는 두 개의 서버 플랫폼 QuantaGrid D74H-7U 및 D54U-3U에서 Solidigm NVMe SSD(D7-PS1010, D5-P5336 및 D3-S4520)를 사용하여 스토리지 구성과 AI 성능 간의 상호작용을 조사합니다. 결과에 따르면 추론 워크로드는 컴퓨팅과 메모리의 제약을 받고 스토리지 설정을 개선해도 혜택이 거의 없는 반면, 학습 및 스토리지 벤치마크는 신속한 데이터 검색을 필요로 하는 DLRMv2와 같은 모델에서 NVMe SSD가 상당한 이점을 제공합니다. 본 연구는 이러한 결과를 분석하여 학습 시나리오에서 고성능 스토리지의 중추적인 역할과 추론에서 GPU 및 메모리 최적화의 중요성을 강조하여 효율적인 AI 인프라 설계를 위한 실행 가능한 지침을 제공합니다. 이러한 분석 결과는 학계와 산업계의 이해 당사자에게 확장 가능성과 지속적인 성과를 달성하기 위해 워크로드별 요구 사항에 맞춰 하드웨어를 선택하는 정보를 제공하고자 합니다.

벤치마킹 설정 및 방법

Solidigm D7-PS1010 U.2 고성능 SSD
Solidigm D5-P5336 U.2 고밀도 SSD

하드웨어 및 소프트웨어 구성

AI 워크로드에 대한 스토리지 구성의 영향을 평가하기 위해 두 개의 서버 플랫폼에서 MLPerf 추론, 학습 및 스토리지 벤치마크를 수행했습니다. 

시스템 QuantaGrid D74H-7U QuantaGrid D54U-3U
CPU

Intel Xeon 플래티넘 8480+

56코어 x 2

Intel Xeon 플래티넘 8470

 52코어 x 2

RAM 2TB(DDR5-4800 64GB x 32) 2TB(DDR5-4800 64GB x 32)
OS 디스크 삼성 PM9A3 3.84TB x 1 삼성 PM9A3 1.92TB x 1
데이터 디스크

Solidigm D7-PS1010 U.2 7.68TB x 8

Solidigm D5-P5336 U.2 15.36TB x 8

Solidigm D7-PS1010 U.2 7.68TB x 8

Solidigm D5-P5336 U.2 15.36TB x 8

Solidigm D3-S4520 SATA 7.68TB x 8

가속기 H100 SXM5 80GB x 8 H100 PCIe 80GB x 4
BIOS 구성

프로필: 강력한 성능

LP 활성화[Global]: 모든 LP

SNC: 비활성화

OS Rocky Linux 릴리스 9.2(Blue Onyx)
커널 5.14.0-362.18.1.el9_3.x86_64 5.14.0-284.11.1.el9_2.x86_64
프레임워크

GPU 드라이버 550.127.08 

CUDA 12.4 + GDS 12.4

GPU 드라이버 550.90.07 

CUDA 12.4

표 1: Solidigm의 다양한 NVMe 솔루션을 적용한 QuantaGrid D74H-7U 및 D54U-3U의 구성.

  Solidigm™ D7-PS1010(폼 팩터: U.2) Solidigm™ D5-P5336(폼 팩터: U.2) Solidigm™ D3-S4520(폼 팩터: U.2)
  이미지 이미지 이미지
용량 7.68TB 15.36TB 7.68TB
리소그래피 유형 176L TLC 3D NAND 192L QLC 3D NAND 144L TLC 3D NAND
인터페이스 PCIe 5.0 x4, NVMe PCIe 4.0 x4, NVMe SATA 3.0 6Gb/s
순차 읽기(최대) 14,500MB/s 7,000MB/s 550MB/s
순차적 쓰기(최대) 9,300MB/s 3,000MB/s 510MB/s
무작위 읽기(최대) 2,800,000IOPS(4K) 1,005,000IOPS(4K) 86,000IOPS(4K)
무작위 쓰기(최대) 400,000IOPS(4K) 24,000IOPS(4K) 30,000IOPS(4K)

표 2: Solidigm PS1010, P5336 및 S4520의 사양

두 플랫폼 모두에서 MLPerf 추론 테스트를 수행했으며, 실제 AI 추론 환경을 시뮬레이션하기 위해 각 시스템을 "서버" 및 "오프라인" 모드에서 평가했습니다. 벤치마크는 1개, 2개, 4개, 8개의 드라이브를 사용하여 다양한 스토리지 구성 전반에 걸쳐 성능을 평가하여 확장성과 처리량 효율을 분석했습니다. 목표는 추론 워크로드가 메모리와 GPU 성능에 주로 의존한다는 점을 고려하여 디스크 수를 늘리는 것이 성능에 측정 가능한 영향을 주는지 여부를 확인하는 것이었습니다.

MLPerf 학습 및 스토리지 벤치마크를 위해 QuantaGrid D74H-7U 및 D54U-3U 모두 학습 워크로드에 활용되었으며, 스토리지 성능 평가에는 D54U-3U도 사용되었습니다. 학습 테스트에서는 스토리지 구성 및 AI 모델 성능 간의 관계를 조사했습니다. 스토리지 벤치마크는 AI에 특화된 워크로드에서 디스크 처리량과 효율성을 분석하여 NVMe SSD가 SATA보다 어떤 이점을 제공하는지 평가했습니다.

2개, 4개, 8개의 드라이브를 활용하는 구성에서 읽기 및 쓰기 속도를 최적화하고 SSD 전반에 효율적인 데이터 분포를 보장하기 위해 소프트웨어 RAID0 설정을 구현했습니다. SSD 성능을 최대한 활용하기 위해 CPU의 PCIe 레인 또는 PCIe 스위치를 통해 모든 NVMe SSD를 직접 연결했습니다. RAID 컨트롤러에 의한 대역폭 제한 가능성을 방지하기 위해 하드웨어 RAID를 회피하여 AI 워크로드가 PCIe 레인 제약 없이 스토리지 처리량을 극대화할 수 있도록 했습니다.

MLPerf 워크로드

이 섹션에서는 추론, 학습 및 스토리지 워크로드 전반에 걸쳐 AI 시스템 성능을 평가하기 위해 MLCommons Association이 개발한 MLPerf 벤치마킹 모음집(Inference v4.1, Training v4.1 및 Storage v1.0)에 대해 간략하게 설명합니다. 이 모음집은 하드웨어와 소프트웨어 효율성을 평가하기 위한 표준화되고 재현 가능한 방법을 제공하며, 명확한 구분과 규칙을 통해 공정성, 비교 가능성 및 유연성을 보장합니다.

MLPerf Inference v4.1

MLPerf Inference v4.1은 실시간 추론 작업 중 AI 시스템의 성능을 측정하도록 설계되었으며, 실행 속도, 지연 시간 및 정확도에 초점을 맞춥니다. 이는 표준화된 시스템 구성 및 프레임워크를 사용하여 BERT [1], ResNet-50 [2], RetinaNet [3], 3D-Unet [4], DLRMv2 [5], GPT-J [6], Llama2-70B [7], Mixtral-8x7B [8], Stable Diffusion XL(SDXL) [9], 등 다양한 워크로드를 평가합니다. 이 모음집은 지연 시간, 처리량, 효율성과 같은 핵심 지표를  수치로 표시하며, 모델 정확도가 사전 정의된 표준을 충족하도록 보장하고, 저전력 엣지 장치부터 고성능 데이터 센터 서버에 이르기까지 다양한 플랫폼을 지원합니다. 또한, 비전, 언어, 상업, 생성 및 그래프 영역 전반에 걸쳐 개방성과 비교 가능성을 촉진하고, 다양한 배포 환경을 다룹니다.

주요 용어 정의

MLPerf Inference에서 핵심 용어는 다음을 포함합니다.

  • 샘플: 이미지, 문장 또는 노드 ID와 같은 추론 단위(예: ResNet-50에 대한 하나의 이미지, BERT에 대한 하나의 시퀀스).
  • 쿼리: N이 양의 정수일 때 테스트 중인 시스템(SUT)에 함께 제공되는 N개의 샘플 세트(예: 쿼리당 8개의 이미지).
  • 품질: 정확한 출력값을 만들어 내는 모델의 능력.
  • 테스트 중인 시스템(System Under Test, SUT): 성능 측정을 위해 정의된 하드웨어(예: 프로세서, 가속기, 메모리) 및 소프트웨어 리소스 세트.
  • 기준 구현: MLPerf에서 제공하는 표준 구현으로, 모든 유효한 ‘폐쇄된(Closed)’ 제출물은 이 표준 구현과 동일해야 합니다.

테스트 시나리오

MLPerf Inference는 다음 표에 자세하게 설명된 바와 같이 네 가지의 테스트 시나리오를 포함하여 실제 추론 워크로드를 반영합니다.

시나리오 목적 사용 사례 측정 기준
단일 스트림 단일 쿼리 스트림의 지연 시간 평가 음성 인식 또는 실시간 비디오 분석과 같은 실시간 애플리케이션 각 쿼리를 처리하는 데 소요되는 시간
멀티 스트림 다수의 동시 스트림 전반의 성능 테스트 비디오 스트리밍 또는 챗봇과 같은 다중 사용자 시스템 동시 쿼리 처리 시의 지연 시간 및 처리량
서버 동적 온라인 쿼리 부하 처리 평가 수요가 유동적인 클라우드 추론 서비스 지연 시간 제약 하에서의 초당 쿼리 수(QPS)
오프라인 대규모 배치 처리의 처리량 측정 데이터세트 분석 또는 미디어 인덱싱과 같은 대량 작업 정해진 기간 동안 처리된 총 쿼리 수

제출 부문

MLPerf Inference는 폐쇄(Closed)와 개방(Open) 두 개의 부문으로 나뉩니다. 폐쇄 부문(Closed Division)은 참조 또는 대체 구현과의 동등성을 의무화하며, 양자화에 대한 보정은 허용하지만 재학습은 금지합니다. 개방 부문(Open Division)은 재학습을 포함하여 임의의 전처리/후처리 및 모델을 허용하며, 보고된 정확도와 지연 시간 제약을 적용하여 혁신을 촉진시키지만 비교 가능성이 저해됩니다.

방법 및 워크플로우

MLPerf Inference 과정은 쿼리를 시뮬레이션하고, 지연 시간을 추적하고, 정확도를 검증하며 측정 지표를 계산하기 위해 Python에서도 사용할 수 있도록 연결된 C++ 도구인 부하 발생기(LoadGen)에 의존합니다. LoadGen은 논리적 소스의 쿼리를 시뮬레이션하여 프로세서에서 작동하고 대역폭 요구 사항에 따라 DRAM에 트레이스를 저장합니다. 그림 1은 검증에 실패하여 테스트 중인 시스템(System Under Test, SUT)을 재구성해야 하는 실패 시나리오를 포함하여 구성에서부터 검증 단계까지 MLPerf Inference의 간소화된 워크플로우를 보여줍니다.

검증 단계까지 간소화된 MLPerf Inference의 워크플로우 그림 1. 검증 단계까지 간소화된 MLPerf Inference의 워크플로우

이러한 시나리오는 지연 시간이 중요하고 처리량에 중점을 둔 애플리케이션을 포괄적으로 지원하며, 조기 종료 기준을 통해 통계적 타당성을 유지하면서 실행 시간을 단축할 수 있습니다.

규칙 및 지침

규칙은 공정성을 보장하고, 일관된 시스템과 프레임워크를 필요로 하며, 코드를 오픈소스화하고, 비결정성을 고정된 시드로 제한하고, 벤치마크 감지 또는 입력 기반 최적화를 금지합니다. 재현 가능성은 필수적이며, 특히 폐쇄 제출물의 경우 감사를 통해 준수 여부를 검증합니다.

사용 사례 및 영향

MLPerf Inference는 엣지 컴퓨팅, 클라우드 인프라 및 전문화된 영역을 지원하여 실시간 추론 및 확장 가능성을 최적화하고 효과적인 AI 솔루션 개발을 촉진합니다.

MLPerf Training v4.1

MLPerf Training v4.1은 다양한 ML 작업에서 실행 속도로 정의된 학습 성능을 측정하기 위해 표준화된 벤치마크를 구축합니다. 이는 BERT, DLRMv2, GNN(R-GAT) [10], Low-Rank Adaptation(LoRA) [11], Stable Diffusion(SD) [12] 및 Single-Shot Detector(SSD) [13]와 같은 워크로드를 평가하여 정의된 규칙을 통한 공정성을 보장합니다. 성능과 품질은 핵심 지표이며, 규칙을 준수한 결과만 MLPerf 상표를 사용할 수 있습니다. 이 모음집은 시스템, 프레임워크, 벤치마크를 포함하며, 참조 결과와 비교해서 정규화된 값으로 실행합니다.

주요 용어 정의

주요 용어에는 다음이 포함됩니다.

  • 강력한 성능: 학습의 실행 속도.
  • 품질: 정확한 출력값을 생성하는 데 있어서의 모델의 정확도.
  • 시스템: ML 프레임워크를 제외하고 실행 시간에 영향을 미치는 하드웨어와 소프트웨어.
  • 프레임워크: 특정 ML 라이브러리 버전.
  • 벤치마크: 품질 목표에 도달하도록 학습을 통해 추상화된 ML 문제 해결.
  • 실행: 초기화부터 품질 목표에 이를 때까지 모든 학습을 실제 소요 시간으로 측정.
  • 기준 구현: MLPerf가 제공하는 구현으로 벤치마크 표준 정의.

벤치마크 및 부문

이 모음집은 비전, 언어, 상업 및 그래프 영역을 포함하며, 폐쇄(Closed) 부문과 개방(Open) 부문으로 나뉩니다. 폐쇄 부문은 참조 전처리, 모델 및 목표를 의무화하여 비교 가능성을 보장하는 반면, 개방 부문은 데이터와 방법에 유연성을 허용하여 반복적 개선과 벤치마크 데이터세트 정렬이 필요합니다.

방법 및 워크플로우

학습은 참조 모델, 가중치, 최적화 알고리즘 및 하이퍼파라미터를 따르며, 난수 생성(제한적: 기본, mllog를 통한 시계 기반 시드) 및 숫자 형식(제한적: 사전 승인된 형식, 예: fp32, fp16)은 제한됩니다. 데이터 처리는 참조 일관성을 보장하며, 정해진 빈도로 품질을 평가하고, 여러 번의 실행 결과를 종합해 기준과 비교해서 정규화합니다. 그림 2는 시스템 정의에서부터 수렴 확인 단계에 이르는 MLPerf Training의 간소화된 워크플로우를 보여주며, 수렴이 참조 수렴 지점(Reference Convergence Points, RCPs)에 도달하지 못하는 실패 시나리오에서는 하이퍼파라미터를 조정하거나 과정을 다시 실행해야 합니다.

수렴 확인을 위한 간소화된 MLPerf 학습 워크플로우 그림 2. 수렴 확인을 위한 간소화된 MLPerf 학습 워크플로우

규칙 및 지침

공정성이 가장 중요하며, 벤치마크 감지, 사전 학습(메타데이터 제외)을 금지하고 재현 가능성을 필요로 합니다. 참조 수렴 지점(Reference Convergence Points, RCPs)은 제출된 수렴 결과가 참조 기준과 일치하도록 보장하며, 성능을 최적화하기 위해 감사를 실시하고 하이퍼파라미터를 빌려오는 것을 허용합니다.

사용 사례 및 영향

MLPerf Training은 비전, 언어 및 상업 분야의 AI 모델 개발을 지원하며, 데이터 센터를 위한 학습을 최적화하고 확장성을 향상시키며, 하드웨어/소프트웨어 혁신을 촉진합니다.

MLPerf Storage v1.0

MLPerf Storage v1.0은 ML 워크로드를 위한 스토리지 시스템 성능을 평가하며, 대기 간격을 통해 가속기 수요를 모방하여 데이터 수집 파이프라인을 분리함으로써 컴퓨팅 클러스터 없이 확장 가능한 테스트를 가능하게 합니다. 이는 스토리지 확장 가능성과 성능에 중점을 두어 3D U-Net, ResNet-50 및 CosmoFlow와 같은 워크로드를 지원합니다.

주요 용어 정의

주요 용어에는 다음이 포함됩니다.

  • 샘플: 학습을 위한 데이터 단위, 예: 이미지 또는 문장(예: 3D U-Net의 경우 샘플당 140MB).
  • 단계: 에뮬레이션된 가속기에 적재된 첫 번째 배치.
  • 가속기 활용(Accelerator Utilization, AU): 전체 실행 시간 대비 에뮬레이션된 가속기가 활성화된 시간의 비율(예: 3D U-Net의 경우 90% 이상).
  • 부문: 비교 가능한 결과에 대한 규칙(폐쇄, 개방).
  • DLIO: I/O 패턴을 에뮬레이션하는 핵심 벤치마킹 도구. 딥 러닝 I/O(DLIO) [14]는 Argonne National Laboratory에서 개발한 오픈 소스 벤치마킹 모음집으로, 원래 Theta 슈퍼컴퓨터와 같은 HPC 시스템을 위해 설계되었습니다. DLIO는 과학적인 딥러닝 워크로드의 I/O 동작을 분석하고 모델링하여 대규모의 실제와 같은 데이터 수집 패턴을 정확하게 재현합니다. 이렇게 하면 사용자가 분산 순수 컴퓨팅 성능을 주로 측정하는 것이 아닌 대규모의 ML 학습의 일반적인 조건에서 스토리지 인프라에 대한 스트레스 테스트를 수행할 수 있습니다.
  • 데이터세트 내용: 형식이 아닌 데이터 및 용량(예: 3D U-Net의 경우 KiTS19).
  • 데이터세트 형식: 스토리지 형식(예: npz).
  • 스토리지 시스템: 호스트 노드에 스토리지 서비스를 제공하는 하드웨어/소프트웨어.
  • 스토리지 확장 단위: 스토리지 성능/규모를 늘리는 최소 단위(예: 노드, 컨트롤러).
  • 호스트 노드: 시뮬레이터를 동일하게 실행하면서 부하를 늘리는 최소 단위.

벤치마크 및 부문

이 모음집은 MLPerf Training/HPC에서 얻은 I/O 패턴을 시뮬레이션하고 최소 AU 임계값(예: ResNet-50의 경우 90%)으로 초당 샘플 수를 측정합니다. 폐쇄 부문은 비교 가능성에 대한 파라미터를 표준화하고 수정을 제한하는 반면, 개방 부문은 혁신을 위한 맞춤화(예: DLIO 변경)를 허용하여 문서화가 필요합니다.

방법 및 워크플로우

MLPerf Storage는 DLIO를 사용하여 합성 데이터(호스트 DRAM의 5배 이상, 캐싱 배제)를 생성하고, 가속기, 메모리 및 단계를 기반으로 최소 크기를 계산합니다. 단일 호스트 또는 분산 환경에서 배리어를 통해 동기화하고 초당 샘플 수로 성능을 측정하여 부하를 늘립니다. 그림 3은 구성에서부터 가속기 활용(AU) 임계값 검증 단계에 이르기까지 MLPerf Storage의 간소화된 워크플로우를 보여주며, AU 임계값이 충족되지 않아 스토리지 시스템 또는 구성을 조정해야 하는 실패 시나리오를 포함하고 있습니다.

AU 임계값 검증을 위한 간소화된 MLPerf 스토리지 워크플로우 그림 3. AU 임계값 검증을 위한 간소화된 MLPerf 스토리지 워크플로우

규칙 및 지침

규칙은 공정성을 보장하기 위해 사용 가능한 시스템(6개월 이내에 상용화), 고정된 시드, 안정된 스토리지, 사전 로딩 금지, 캐시 비우기 및 5번 실행 시 5%의 재현 가능성을 요구합니다. 감사는 규정 준수를 확인하며, 폐쇄 부문의 제출물은 제공된 스크립트를 사용하고, 개방 부문은 DLIO 수정을 허용합니다.

사용 사례 및 영향

MLPerf Storage는 ML 학습을 위한 스토리지를 최적화하여 비전, 계산 과학 등 다양한 분야의 대규모 데이터 파이프라인을 지원하고, 확장 가능성 및 효율성을 고려한 인프라 계획에 지침을 제공합니다.

결과 및 분석

MLPerf Inference v4.1 디스크 구성 성능 분석

Solidigm D7-PS1010(PCIe Gen5), D5-P5336(PCIe Gen4) 및 D3-S4520(SATA SSDs)을 사용하는 다양한 RAID0 디스크 구성에서 MLPerf Inference v4.1의 성능 평가 결과, 디스크 수를 증가시켜도 추론 성능에 미치는 영향은 미미하다는 점을 보여줍니다. ResNet50, RetinaNet, BERT, DLRMv2, 3D-Unet, SDXL, GPT-J, Llama2-70b 및 Mixtral을 포함하여 테스트한 모든 모델에서 속도 향상 정도가 거의 일정하게 유지됩니다. 

제공된 그림 4부터 그림 8까지에서 D7-PS1010, D5-P5336, 그리고 D3-S4520의 경우 추론 속도 향상 정도가 다양한 디스크 구성에서 변하지 않는다는 점을 확인할 수 있습니다. 이는 MLPerf 추론 워크로드가 I/O에 제한된다기 보다는 주로 컴퓨팅 및 메모리에 의해 제한된다는 점을 시사합니다. 추론은 주로 메모리에서 모델을 실행하고 디스크 접근이 거의 없기 때문에 더 많은 스토리지 장치를 추가하더라도 측정 가능할 정도의 성능 개선 효과는 없습니다. 

또한, D74H-7U 및 D54U-3U 플랫폼 전반에서 이러한 추세가 일관되게 유지되며, 서로 다른 SSD 모델 또는 디스크 구성 간에 속도 향상 정도에 큰 차이가 없습니다. 이는 MLPerf 추론이 성능 향상을 위해 디스크 I/O에 의존하지 않고, 디스크 선택이 전반적인 시스템 효율성 측면에서 별로 중요하지 않다는 점을 더욱 뒷받침합니다.

주목할 만한 사례는 MLPerf Inference v4.1에 새롭게 추가된 모델인 Mixtral인데, 이는 NVIDIA에서 H100 및 H200 SXM5와 같은 고성능 GPU에 맞게 최적화되고 양자화되었습니다. 그러나 Mixtral은 D54U-3U 플랫폼에서 H100 PCIe 80GB를 완전히 지원하지 않아 테스트에서 생략했습니다. 

이러한 결과는 AI 추론 작업의 경우 고속 SSD를 추가하기 위해 투자해도 큰 효과를 가져다주지 않을 수 있으며, 그 대신에 컴퓨팅 가속 및 메모리 효율성 최적화에 노력이 집중되어야 한다는 점을 강조합니다.

D74H-7U에서 Solidigm D7-PS1010을 사용한 MLPerf 추론 그림 4. D74H-7U에서 Solidigm D7-PS1010을 사용한 MLPerf 추론
D74H-7U에서 Solidigm D5-P5336을 사용한 MLPerf 추론 그림 5. D74H-7U에서 Solidigm D5-P5336을 사용한 MLPerf 추론
D54U-3U에서 Solidigm D7-PS1010을 사용한 MLPerf 추론 그림 6. D54U-3U에서 Solidigm D7-PS1010을 사용한 MLPerf 추론
D54U-3U에서 Solidigm D5-P5336을 사용한 MLPerf 추론 그림 7. D54U-3U에서 Solidigm D5-P5336을 사용한 MLPerf 추론
D54U-3U에서 Solidigm D3-S4520을 사용한 MLPerf 추론 그림 8. D54U-3U에서 Solidigm D3-S4520을 사용한 MLPerf 추론

MLPerf Training v4.1 디스크 구성 성능 분석

그림 9 및 그림 10은 D74H-7U에서 D7-PS1010 및 D5-P5336 시스템을 활용하여 다양한 스토리지 구성에 따른 MLPerf 학습 속도 향상 성능에 대한 비교 분석을 제공합니다. 이러한 시각적 표현은 서로 다른 디스크 구성(1개, 2개, 4개 및 8개의 디스크)에서 BERT, DLRMv2, GNN, LoRA, Stable Diffusion(SD) 및 Single-Shot Detector(SSD)를 포함한 여러 머신 러닝 모델의 확장성 특성을 강조합니다.

D74H-7U에서 Solidigm D7-PS1010을 사용한 MLPerf 학습 그림 9. D74H-7U에서 Solidigm D7-PS1010을 사용한 MLPerf 학습

그림 9에서 DLRMv2 및 GNN은 디스크 수가 증가함에 따라 가장 눈에 띄는 성능 향상을 보여줍니다. DLRMv2는 8개의 디스크를 사용하여 1.29배의 성능 향상을 달성한 반면, GNN은 1.10배에 그쳤습니다. 다른 모델에서는 미미한 변화만 보이는데, 이는 디스크 I/O에 대한 의존도가 제한적임을 시사합니다.

D74H-7U에서 Solidigm D5-P5336을 사용한 MLPerf 학습 그림 10. D74H-7U에서 Solidigm D5-P5336을 사용한 MLPerf 학습

표 3은 서로 다른 스토리지 구성에서 각 모델에 대한 상대 표준 편차(RSD)를 보여줍니다. RSD 값은 각 모델에서 상당한 변동성을 나타내며, 이는 학습 성능이 디스크 I/O 외의 다른 요인의 영향을 받는다는 것을 시사합니다. 이러한 변동성은 난수 시드 선택의 영향으로 인해 더욱 심화되며, 이로 인해 여러 번 실행에 걸친 학습 수렴과 계산 효율에 영향을 미칩니다.

AI 모델 

/

 장치 수

Solidigm D7-PS1010 Solidigm D5-P5336
8 4 2 1 8 4 2 1
BERT 7.65% 9.46% 8.03% 8.95% 5.70% 9.91% 72.50% 5.90%
DLRMv2 5.13% 7.32% 4.32% 6.91% 5.46% 5.38% 3.02% 3.71%
GNN 4.50% 3.98% 5.26% 3.69% 4.20% 6.77% 34.50% 4.14%
LoRA 6.17% 4.27% 8.17% 8.58% 6.55% 6.19% 5.48% 6.33%
SD 13.86% 11.21% 11.75% 15.39% 11.18% 11.93% 13.54% 11.40%
SSD 0.07% 10.65% 0.12% 0.22% 0.17% 0.16% 0.08% 0.04%

표 3. MLPerf 학습에서 각 AI 모델 워크로드에 대한 상대 표준 편차

반대로 그림 10은 D5-P5336 시스템이 디스크 수 증가, 특히 DLRMv2의 경우 디스크 8개를 사용해서 향상되는 최대 속도가 2.51배에 도달하여 상당한 이점을 얻는다는 것을 보여줍니다. GNN 또한 비록 정도는 덜하지만 꾸준한 개선을 보이고 있습니다. 다른 모델에서는 약간의 차이가 있는데, BERT는 디스크 수가 늘어남에 따라 성능이 조금씩 저하됩니다. 이러한 결과는 특히 DLRMv2처럼 데이터 집약적인 워크로드에서는 D5-P5336 시스템이 성능 향상을 위해 디스크 개수에 더 의존한다는 점을 보여줍니다.

DLRMv2는 SSD 성능에 매우 민감하므로, 특히 이 모델에 대한 추가 테스트가 필요합니다. D74H-7U 하드웨어 아키텍처는 AI 학습 가속을 위한 핵심 기능인 NVIDIA GDS(GPUDirect Storage, 그림 11 참조)를 지원합니다. GDS는 NVMe SSD와 GPU 간의 직접 데이터 전송을 가능하게 하여 시스템 메모리를 우회하고 CPU 개입을 줄입니다. 이러한 최적화는 데이터 전송 지연 시간을 최소화하고 처리량을 극대화하여 특히 고속 데이터 접근을 필요로 하는 워크로드에 유익합니다. 그 결과, D74H-7U에 대한 모든 테스트는 GDS를 활성화한 상태로 수행되었습니다. D74H-7U는 NVMe SSD만 지원하기 때문에, D3-S4520에 대한 학습 테스트는 D54U-3U에서만 수행되었습니다.

NVIDIA GPUDirect Storage의 예시 그림 11. NVIDIA GPUDirect Storage의 예시

그림 12는 D74H-7U 및 D54U-3U에서 D7-PS1010을 사용하는 DLRMv2에 대한 MLPerf 학습 성능의 비교 분석 결과를 보여줍니다. 디스크가 하나일 때는 두 시스템이 비슷한 성능을 보이지만, 디스크 수가 증가함에 따라 D74H-7U에서의 D7-PS1010이 눈에 띄게 개선되어 디스크가 8개일 때 최대 속도가 1.29배 빨라집니다. 그에 반해 D54U-3U는 1.00배에 가깝게 유지되는데, 이는 D74H-7U가 GDS를 활성화한 상태에서 디스크 확장에 따른 이익이 큰 반면, D54U-3U는 구조적인 한계에 부딪혀 I/O 확장성이 제한적이라는 점을 시사합니다.

D74H-7U 및 D54U-3U에서 PS1010을 사용한 MLPerf Training DLRMv2 비교 그림 12. D74H-7U 및 D54U-3U에서 PS1010을 사용한 MLPerf Training DLRMv2 비교

그림 13은 특히 디스크 수가 적을 때 D7-PS1010의 성능이 D5-P5336보다 일관되게 좋다는 것을 보여줍니다. 디스크가 하나일 때 D7-PS1010에서의 학습 시간은 5.04분인 반면, D5-P5336에서는 9.78분으로 현저하게 높습니다. 디스크가 4개일 때에는 성능 향상 폭이 안정화되기 시작하여 D7-PS1010에서는 4.14분, 그리고 D5-P5336에서는 4.15분입니다. 장치 수가 8개로 늘어남에 따라 성능 격차가 완전히 수렴하여 D7-PS1010에서 3.92분, 그리고 D5-P5336에서는 3.90분이 됩니다. 이러한 결과는 D7-PS1010에서 PCIe Gen5의 더 높은 대역폭으로 인해 장치 수가 적은 환경에서 상당한 이점을 제공하지만, 확장으로 인해 효율 한계에 도달하게 되면 이러한 영향이 줄어든다는 점을 시사합니다.

디스크 구성에 따른 DLRMv2 성능 그림 13. 디스크 구성에 따른 DLRMv2 성능

그림 14는 D7-PS1010, D5-P5336 및 D3-S4520 SSD를 비교하여 D54U-3U 시스템에서 DLRMv2의 MLPerf 학습 성능을 추가로 조사합니다. 결과에 따르면 D7-PS1010 및 D5-P5336은 서로 다른 디스크 구성에서 안정적인 학습 시간을 유지했지만, D3-S4520은 디스크 수가 증가함에 따라 상당한 속도 향상을 보였습니다. 특히 디스크가 8개일 때 D3-S4520은 단일 디스크 구성과 비교하여 6.78배의 속도 향상을 달성했으며, 학습 시간을 123.29분에서 18.19분으로 단축했습니다. 반면, D7-PS1010 및 D5-P5336은 디스크 수와 관계없이 학습 시간이 15분 정도에서 변동하며 성능 범위의 폭이 좁게 유지됩니다. 이러한 결과는 특히 디스크 읽기와 쓰기 속도에 매우 민감한 워크로드의 경우, AI 학습 성능에서 스토리지 유형의 핵심적인 역할을 강조합니다.

D54U-3U에서 D7-PS1010, D5-P5336 및 D3-S4520을 사용한 MLPerf Training DLRMv2 비교 그림 14. D54U-3U에서 D7-PS1010, D5-P5336 및 D3-S4520을 사용한 MLPerf Training DLRMv2 비교

MLPerf Storage v1.0 디스크 구성 성능 분석

MLPerf Storage 벤치마크는 GPU에서의 AI 학습을 시뮬레이션하며, 주로 디스크의 읽기 성능을 테스트합니다. 테스트 결과에 따르면 SATA SSD(D3-S4520)는 성능이 확실히 부족하여 NVMe만이 실행 가능한 유일한 선택지가 됩니다. 이 테스트에서 사용된 단일 서버의 경우 D7-PS1010 드라이브 두 개로 최대 사용 가능한 성능 한계에 도달한 반면, D5-P5336에서는 한계에 도달하는 데 드라이브 네 개가 필요했습니다. D7-PS1010 또는 D5-P5336을 사용하든 관계없이 단일 디스크의 읽기 성능은 ResNet50 및 Cosmoflow AI 워크로드에서 이론적 사양 한계치에 거의 도달합니다.

그림 15, 그림 16 및 표 4는 D54U-3U에서 D7-PS1010 및 D5-P5336을 사용하는 MLPerf Storage 성능을 자세히 비교하여 ResNet-50, Unet3D, 그리고 CosmoFlow를 포함한 여러 AI 모델을 분석합니다. 이 결과는 워크로드에 따라 디스크 성능이 다양하게 확장됨을 보여주며, 워크로드별 스토리지 요구 사항을 이해하는 것이 중요하다는 점을 강조합니다.

그림 15에서 D7-PS1010은 테스트한 모든 워크로드에서 강력한 성능을 보여줍니다. Unet3D는 디스크 수가 증가함으로 인해 성능이 크게 개선되며, 디스크 8개 사용 시에는 최대 처리량이 23176.57MiB/s에 달하는 반면, 1개 사용 시에는 11869.57MiB/s이었습니다. ResNet-50은 유사한 경향을 보이며 처리량이 15550.54MiB/s(디스크 1개)에서 20069.97MiB/s(디스크 2개)로 증가하지만, 디스크 4개 이상에서는 안정화됩니다. 그러나 CosmoFlow는 디스크를 더 추가해도 처리량이 15838.27MiB/s 수준에서 변동하여 성능 향상이 크지 않음을 보여줍니다. 이는 스토리지 접근 패턴이 NVMe 장치를 추가했을 때 성능을 충분히 활용하지 못한다는 점을 시사합니다.

D54U-3U에서 D7-PS1010을 사용한 MLPerf Storage 그림 15. D54U-3U에서 D7-PS1010을 사용한 MLPerf Storage

그림 16은 D5-P5336의 결과를 보여주며, 다양한 확장 패턴을 나타냅니다. Unet-3D는 디스크 8개를 사용할 때 23045.24MiB/s에 달하는 강력한 확장성 추세를 유지하며, ResNet-50에서는 D7-PS1010과 비교하여 8402.90MiB/s(디스크 1개)에서 19817.54MiB/s(디스크 8개)로 개선되는 더 뚜렷한 성능 향상 효과를 확인할 수 있습니다. CosmoFlow는 8개의 디스크를 사용할 때의 처리량이 최대 15657.91MiB/s로 다시 한 번 제한된 확장성 효과를 보여줍니다. 이에 따르면 Unet3D 및 ResNet-50과 같은 워크로드의 경우, 비록 P5336은 경쟁력 있는 성능을 제공하지만 최고의 효율을 달성하기 위해서는 더 많은 디스크를 필요로 합니다.

D54U-3에서 D5-P5336을 사용한 MLPerf Storage 그림 16. D54U-3U에서 D5-P5336을 사용한 MLPerf Storage

표 4는 D54U-3U 플랫폼에서 장치 수를 달리 하여(1개, 2개, 4개, 8개) Solidigm SSD(D7-PS1010, D5-P5336 및 D3-S4520)을 사용해서 평가한 세 가지의 AI 모델(ResNet50, UNet-3D 및 CosmoFlow)에 대한 결과를 보여줍니다. 이 표는 데이터 세트 크기, 가속기 활용(AU), 처리량(MiB/s) 및 시뮬레이션된 가속기 수를 보여주며, 최대 성능을 달성하기 위해 시행착오를 통해 최적화되었습니다.

AI 모델 장치 수 Solidigm D7-PS1010 Solidigm D5-P5336 Solidigm D3-S4520
8 4 2 1 8 4 2 1 8 4 2 1
ResNet50 시뮬레이션된 H100 가속기 수 111 111 111 86 112 112 86 47 28 14 6 2
데이터세트 크기(GiB) 5030 5030 5030 5030 5030 5030 5030 5030 5030 5030 5030 639
AU_1 90.30 91.87 92.77 92.83 90.93 93.29 90.42 91.58 91.16 91.34 98.78 95.37
AU_2 90.26 91.72 92.65 92.69 90.07 93.16 90.51 91.70 91.22 91.29 98.79 95.25
AU_3 90.80 91.76 92.92 92.72 90.89 93.01 90.33 91.45 91.36 91.44 98.75 95.31
AU_4 90.36 91.17 92.32 92.59 90.88 92.48 90.39 91.70 91.34 91.31 98.79 95.23
AU_5 90.59 91.71 92.52 92.35 90.50 93.26 90.52 91.47 91.27 91.43 98.80 95.16
처리량(MiB/s) 19598.80 19855.28 20069.97 15550.54 19817.54 20337.54 15181.02 8402.90 4989.15 2497.28 1157.25 371.96
Unet3D 시뮬레이션된 H100 가속기 수 8 8 7 4 8 8 4 2 1 1 1 1
데이터세트 크기(GiB) 5030 5030 5030 5030 5030 5030 5030 5030 5030 5030 639 639
AU_1 96.29 95.67 90.98 98.66 97.34 96.55 98.66 98.72 98.80 67.83 29.85 11.58
AU_2 96.58 95.80 91.87 98.68 97.75 97.40 98.65 98.70 98.77 67.85 30.05 11.59
AU_3 96.78 94.87 92.06 98.68 97.17 98.26 98.66 98.73 98.79 67.86 30.11 11.60
AU_4 96.45 94.44 90.95 98.69 96.50 97.82 98.68 98.72 98.80 67.71 30.14 11.58
AU_5 96.57 95.69 91.01 98.68 96.11 97.78 98.66 98.73 98.79 67.74 30.12 11.59
처리량(MiB/s) 23176.57 22877.37 19216.97 11869.57 23045.24 23143.96 11864.99 5938.05 2976.95 유효하지 않음 유효하지 않음 유효하지 않음
Cosmoflow 시뮬레이션된 H100 가속기 수 28 28 28 28 28 28 28 14 7 3 2 1
데이터세트 크기(GiB) 5030 5030 5030 5030 5030 5030 5030 5030 5030 5030 5030 639
AU_1 72.06 72.00 73.18 73.56 72.95 73.48 70.44 76.75 72.64 87.19 72.85 64.07
AU_2 71.70 71.98 73.26 73.67 72.90 73.86 70.57 76.80 72.85 87.43 72.85 64.74
AU_3 72.02 71.99 73.28 73.57 72.78 73.61 70.48 76.75 72.96 87.57 72.47 65.04
AU_4 71.77 72.08 73.27 73.70 72.68 73.97 70.62 76.81 73.16 87.74 72.84 65.05
AU_5 71.89 72.28 73.38 73.74 72.72 73.57 70.45 76.80 73.24 87.94 72.72 64.81
처리량(MiB/s) 15461.26 15499.75 15757.37 15838.27 15657.91 15848.42 15165.49 8270.50 3933.09 2023.81 1121.04 유효하지 않음

표 4. 다양한 Solidigm NVME 모델에서의 MLPerf Storage 결과

ResNet50의 경우, 모든 구성에서 AU가 90%를 초과하여 기준을 충족했으며, 최대 처리량이 D7-PS1010에서 20,069.97MiB/s(8개의 장치) 및 D5-P5336에서 19,817.54MiB/s(8개의 장치)였습니다. 반면, D3-S4520에서는 4,989.15MiB/s에 그쳐 높은 처리량을 요구하는 작업에는 적절하지 않음을 시사합니다. UNet-3D 또한 90% 이상의 AU를 꾸준히 달성하며, D7-PS1010 및 D5-P5336은 8개의 장치를 사용했을 때 각각 23,176.57MiB/s 및 23,045.24MiB/s의 우수한 처리량을 제공하여, 장치 수가 적을 때 유효하지 않은 결과를 보여주는 D3-S4520 대비 NVMe의 우수성을 강조합니다. CosmoFlow는 AU 기준을 70%로 설정했을 때 AU 값이 이 한계점 이상을 유지하지만, 처리량은 최소한의 확장성만 보여주어(예: 디스크가 8개일 때 D7-PS1010은 15,838.27MiB/s 및 D5-P5336은 15,657.91MiB/s) 워크로드의 본질적 특성을 반영합니다. 이는 CosmoFlow의 데이터 접근 패턴 및 연산 요구사항이 스토리지 확장에 덜 민감하며, 컴퓨팅 및 메모리 효율과 같은 다른 시스템 요인이 더 중요하다는 점을 시사합니다.

반복적 테스트를 통해 최적화된 시뮬레이션된 가속기는 각 설정 환경에서 AU와 처리량을 균형 있게 유지하면서 최적의 구성을 반영합니다. Solidigm D7-PS1010은 PCIe Gen5 대역폭으로 인해 적은 장치만 사용해도 일반적으로 D5-P5336보다 성능이 높지만, D5-P5336은 같은 수준의 성능을 내려면 더 많은 확장이 필요합니다. D3-S4520은 지속적으로 성능이 저조해서 AI 워크로드에서 NVMe의 필요성을 강화합니다. 이러한 결과는 워크로드에 맞춘 스토리지 계획의 중요성을 강조하며, UNet-3D와 같은 고처리량 모델에는 NVMe SSD가 꼭 필요하지만, CosmoFlow의 안정성은 스토리지 확장에 크게 의존하지 않는다는 점을 나타냅니다.

전반적으로 이 데이터에 따르면 AI 워크로드, 특히 높은 처리량을 필요로 하는 Unet-3D와 같은 모델에 NVMe SSD가 필수적임을 알 수 있습니다. D7-PS1010은 더 적은 수의 디스크로 최대의 성능에 도달하는 반면, D5-P5336은 같은 수준의 성능을 내려면 추가적인 확장이 필요합니다. 이러한 작업에는 D3-S4520이 적합하지 않아 AI 인프라 계획 시 스토리지를 신중하게 선택하는 것이 중요하다는 점을 강조합니다.

AI 모델 학습을 위한 하드웨어 구성 권장 사항

분석 결과를 기반으로 AI 모델 학습 최적화를 위해 다음과 같은 사항이 권장됩니다.

  1. 스토리지 선택: 디스크 읽기 및 쓰기 속도에 매우 민감한 워크로드의 경우, Solidigm D7-PS1010(PCIe Gen5)과 같은 고성능 NVMe SSD를 선택하는 것이 매우 중요합니다. 비용에 민감한 구축 환경에서는 여러 개의 SSD를 통한 스토리지 확장이 성능 병목 현상을 완화하는 데 도움이 될 수 있습니다.
  2. NVIDIA GDS의 활용: 특히 NVMe SSD와 GPU 간의 직접 데이터 전송이 CPU 오버헤드 및 메모리 병목 현상을 줄일 수 있는 환경에서 AI 학습 워크로드를 가속화하기 위해서는 NVIDIA GPUDirect Storage(GDS)를 활성화하는 것을 권장합니다.
  3. 균형 잡힌 시스템 아키텍처: 최적의 성능을 얻으려면 스토리지, CPU 및 GPU 구성의 균형을 맞춰야 합니다. 높은 PCIe 대역폭과 효율적인 데이터 흐름 메커니즘을 갖춘 시스템은 일반적으로 AI 학습에서 더 나은 결과를 제공합니다.

이러한 권장 사항을 따르면 AI 모델 학습의 성능과 효율성을 최적화할 수 있고, 하드웨어 투자를 효과적으로 활용하여 컴퓨팅 요구 사항을 충족할 수 있습니다.

결론

MLPerf v4.1의 벤치마킹 결과는 AI 워크로드, 특히 학습 시나리오에서 고성능 스토리지의 결정적인 역할을 집중 조명합니다. Solidigm NVMe SSD(D7-PS1010(PCIe Gen5), D5-P5336(PCIe Gen4) 및 D3-S4520(SATA))에 대해 평가한 결과, 추론 성능은 스토리지 구성에 따라 크게 영향을 받지 않지만, AI 학습 및 스토리지 집약적인 워크로드에서는 고속 NVMe 솔루션으로 인해 현저하게 성능이 향상될 수 있습니다.

추론 워크로드의 경우, 실행 전에 모델이 메모리에 사전 로드되기 때문에 디스크 수에 따른 실질적인 영향은 없는 것으로 나타났습니다. 따라서 GPU 성능과 메모리 대역폭을 최적화하는 것이 확장 스토리지 솔루션보다 추론 효율성을 개선하는 데 더 중요합니다.

반면, 특히 DLRMv2와 같은 스토리지 집약적인 모델의 학습 워크로드에서는 고속 NVMe SSD를 사용할 때 성능이 뚜렷하게 향상됩니다. Solidigm D7-PS1010 PCIe Gen5 SSD는 특히 디스크 수가 적은 구성 환경에서 D5-P5336 PCIe Gen4 SSD에 비해 일관적으로 더 빠른 학습 속도를 제공합니다. 하지만 디스크 수를 늘리면 성능이 일정 수준에서 더 이상 향상되지 않아 추가로 스토리지를 확장해도 성능 개선 효과가 줄어드는 한계점이 있다는 점을 보여줍니다.

MLPerf Storage 벤치마크 결과는 AI 응용 분야에서의 NVMe SSD의 필요성을 더욱 강조합니다. SATA SSD(Solidigm D3-S4520)의 성능은 최신 AI 워크로드에 충분하지 않으므로 NVMe 스토리지가 더 나은 선택이 됩니다. D7-PS1010은 더 적은 수의 디스크로 최대 효율을 달성하지만, D5-P5336은 같은 수준의 성능을 내려면 추가적인 확장이 필요하여 워크로드에 맞춘 스토리지 계획의 중요성을 강조합니다.

전반적으로 이러한 결과는 AI 인프라 최적화에는 균형 잡힌 접근 방식이 필요하다는 점을 강조합니다. 즉, 학습 워크로드에는 고성능 NVMe SSD가 필요한 반면, 추론 워크로드는 GPU 및 메모리 개선을 통해 더 큰 효과를 볼 수 있습니다. AI 배포를 확장하려는 조직은 워크로드 요구 사항을 기반으로 스토리지 솔루션의 우선순위를 정해야 하며, 컴퓨팅 능력, 메모리 대역폭 및 스토리지 성능 간 최적의 균형을 보장하여 효율성과 확장성을 극대화해야 합니다.


저자 소개

참조 

[1] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” May 24, 2019, arXiv: arXiv:1810.04805. doi: 10.48550/arXiv.1810.04805.

[2] K. He, X. Zhang, S. Ren, and J. Sun, “Deep Residual Learning for Image Recognition,” Dec. 10, 2015, arXiv: arXiv:1512.03385. doi: 10.48550/arXiv.1512.03385.

[3] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollár, “Focal Loss for Dense Object Detection,” Feb. 07, 2018, arXiv: arXiv:1708.02002. doi: 10.48550/arXiv.1708.02002.

[4] Ö. Çiçek, A. Abdulkadir, S. S. Lienkamp, T. Brox, and O. Ronneberger, “3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation,” Jun. 21, 2016, arXiv: arXiv:1606.06650. doi: 10.48550/arXiv.1606.06650.

[5] M. Naumov et al., “Deep Learning Recommendation Model for Personalization and Recommendation Systems,” May 31, 2019, arXiv: arXiv:1906.00091. doi: 10.48550/arXiv.1906.00091.

[6] B. Wang and A. Komatsuzaki, “GPT-J-6B: A 6 billion parameter autoregressive language model.” May 2021. [Online]. Available: https://github.com/kingoflolz/mesh-transformer-jax

[7] H. Touvron et al., “Llama 2: Open Foundation and Fine-Tuned Chat Models,” Jul. 19, 2023, arXiv: arXiv:2307.09288. doi: 10.48550/arXiv.2307.09288.

[8] A. Q. Jiang et al., “Mixtral of Experts,” Jan. 08, 2024, arXiv: arXiv:2401.04088. doi: 10.48550/arXiv.2401.04088.

[9] D. Podell et al., “SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis,” Jul. 04, 2023, arXiv: arXiv:2307.01952. doi: 10.48550/arXiv.2307.01952.

[10] M. Chen, Y. Zhang, X. Kou, Y. Li, and Y. Zhang, “r-GAT: Relational Graph Attention Network for Multi-Relational Graphs,” Sep. 13, 2021, arXiv: arXiv:2109.05922. doi: 10.48550/arXiv.2109.05922.

[11] E. J. Hu et al., “LoRA: Low-Rank Adaptation of Large Language Models,” Oct. 16, 2021, arXiv: arXiv:2106.09685. doi: 10.48550/arXiv.2106.09685.

[12] R. Rombach, A. Blattmann, D. Lorenz, P. Esser, and B. Ommer, “High-Resolution Image Synthesis with Latent Diffusion Models,” Apr. 13, 2022, arXiv: arXiv:2112.10752. doi: 10.48550/arXiv.2112.10752.

[13] W. Liu et al., “SSD: Single Shot MultiBox Detector,” vol. 9905, 2016, pp. 21–37. doi: 10.1007/978-3-319-46448-0_2.

[14] H. Devarajan, H. Zheng, A. Kougkas, X.-H. Sun, and V. Vishwanath, “DLIO: A Data-Centric Benchmark for Scientific Deep Learning Applications,” in 2021 IEEE/ACM 21st International Symposium on Cluster, Cloud and Internet Computing (CCGrid), May 2021, pp. 81–91. doi: 10.1109/CCGrid51090.2021.00018.

[15] J. Zhou et al., “Graph Neural Networks: A Review of Methods and Applications,” Oct. 06, 2021, arXiv: arXiv:1812.08434. doi: 10.48550/arXiv.1812.08434.

면책 조항

©2025, Solidigm. “Solidigm”은 SK hynix NAND Product Solutions Corp(d/b/a Solidigm)이 미국, 중국, 싱가포르, 일본, 유럽연합, 영국, 멕시코 및 기타 국가에 등록된 상표입니다.

기타 명칭 및 브랜드는 해당 소유 업체의 자산입니다. 

Solidigm은 언제든 고지 없이 양 및 제품 설명을 변경할 수 있습니다. 

테스트는 특정 시스템의 특정 시험에서 구성 요소의 성능을 기록한 것입니다. 

하드웨어, 소프트웨어 또는 구성에 따른 차이점이 실제 성능에 영향을 미칠 수 있습니다.

구매를 고려할 때 다른 정보를 참고하여 성능을 평가하십시오. 

이러한 결과는 잠정적인 결과이며 정보 제공 목적으로만 제공됩니다. 이러한 가치 및 주장은 최종적이거나 공식적이지 않습니다. 

드라이브는 엔지니어링 샘플로 간주됩니다. 생산 지침은 로드맵을 참조하십시오.