AI용 데이터 스토리지에서의 CMX(Context Memory eXtension) 이해

NVIDIA CMX™(Context Memory eXtension)는 긴 컨텍스트, 멀티턴 및 에이전트 AI 추론을 위한 키-값(KV) 캐시를 저장하고 관리하도록 설계된 AI 네이티브 스토리지 계층입니다. 전용 포드 수준 플래시 계층 "G3.5"로 GPU 메모리를 확장함으로써 CMX는 "메모리 월" 병목 현상을 방지하여 AI 모델이 값비싼 HBM(High Bandwidth Memory)을 고갈시키지 않고도 방대한 대화 기록과 복잡한 추론 상태를 유지할 수 있도록 합니다.

CMX(Context Memory eXtension)란 무엇입니까?

CMX(이전 ICMS 또는 Inference Context Memory Storage)는 AI 추론 중에 생성된 KV 캐시를 오프로드하고 재사용하도록 설계된 특수 스토리지 플랫폼입니다. 이는 빠른 GPU 메모리와 기존 백엔드 스토리지 사이에 위치하며 AI 에이전트가 장기 메모리를 유지할 수 있도록 하는 "포드 수준 컨텍스트 계층" 역할을 합니다. NVIDIA는 기본 워크로드, 구성 및 베이스라인이 공개적으로 밝혀지지는 않았지만 CMX 기반 추론에 대해 초당 토큰 수가 최대 5배 더 높고 전력 효율성이 5배 더 우수하다고 보고했습니다.2

ICMS에서 CMX로: AI 메모리의 리브랜딩

원래 ICMS로 도입되었으나, NVIDIA는 지속적인 "Context Memory Storage" 계층으로서의 역할을 강조하기 위해 이 기술을 CMX로 리브랜딩했습니다. 이러한 변화는 컨텍스트를 임시 세션 아티팩트로 취급하는 것에서 전략적이고 재사용 가능한 자산으로 취급하는 것으로의 전환을 의미합니다.2

  • 기존 접근 방식: KV 캐시는 HBM 상주(용량 제한), 로컬 SSD로 오프로드(포드 전체에서 공유 불가), 기존 네트워크 스토리지로 푸시(경합 및 꼬리 지연 시간), 또는 단순히 재계산(컴퓨팅, 에너지 및 TTFT 낭비)되었습니다.3 
  • CMX 접근 방식: 컨텍스트는 BlueField-4 DPU가 관리하는 이더넷 연결 플래시 계층으로 오프로드되어 전체 컴퓨팅 포드에서 액세스할 수 있습니다.

CMX가 에이전트 AI에 필수적인 이유

최신 AI "에이전트는" 단순히  질문에 답하는 것이 아니라, 수백만 개의 토큰 컨텍스트가 필요한 다단계 추론을 수행합니다.

  • 지속성: 세션은 GPU 메모리를 초과할 때 "시간 초과되거나" 세부 정보를 잃지 않습니다.
  • 공유: 여러 AI 에이전트가 동일한 컨텍스트 메모리 풀에 동시에 액세스할 수 있습니다.
  • 효율성: 다시 계산하는 대신 CMX에서 사전 계산된 KV 캐시를 재사용하면 막대한 양의 컴퓨팅 주기와 전력을 절약할 수 있습니다.

CMX 아키텍처의 작동 방식

CMX 아키텍처는 티어 3과 티어 4 사이의 분리된 메모리 계층으로 작동하며, 이는 티어 G3.5 메모리로 알려져 있습니다. CMX는 NVIDIA BlueField-4 STX 데이터 처리 장치(DPU)를 활용하여 Spectrum-X 이더넷 패브릭을 통해 NVMe SSD를 관리합니다. 

백그라운드에서 메모리가 이동하는 방식을 관리하기 위해 두 가지 특수 소프트웨어 도구를 사용합니다. DOCA Memos는 추론 프레임워크가 호스트 CPU를 거치지 않고 CMX 계층에 KV 캐시 블록을 읽고 쓸 수 있도록 하는 키-값 API를 제공합니다. NIXL(NVIDIA Inference Transfer Library)은 타이밍을 조정하여 GPU가 실제로 정보를 요청하기전에 필요한 정보를 확보하도록 하여, 요청 후에 유휴 상태로 있지 않게 합니다.2

이동되는 데이터는 현재 대화나 컨텍스트에 대한 AI 에이전트의 단기 메모리인 KV 캐시입니다. 사전 구성된 블록으로 이동하면 프로세스가 더 효율적이 되므로 GPU가 대화의 이전 부분을 "기억해야" 할 때 해당 메모리가 이미 대기 중이므로 다음 결과를 생성하는 속도가 느려지지 않습니다.

CMX가 포함된 메모리 계층 구조

CMX는 표준 데이터 센터 스택에 새로운 계층을 도입합니다.

  • 티어 0 메모리: 가장 빠른 메모리로, GPU 내부에 직접 위치합니다.  대기 시간이 매우 짧고 용량이 매우 작으며 즉각적인 활성 계산에 사용됩니다.
  • 티어 1 메모리: 가속기(예: Blackwell, Rubin)와 함께 패키징된 고대역폭 메모리(HBM)는 추론 중에 컴퓨팅 코어에 공급하는 데 필요한 대역폭을 제공합니다.
  • 티어 2 메모리: DRAM/호스트 메모리(Grace/Vera CPU), 고속 시스템 RAM(Grace/Vera CPU)은 단기적인 스필오버에 사용됩니다. 이는 HBM보다 용량이 더 크고 대기 시간도 더 깁니다.
  • 티어 3 메모리: 로컬 SSD 노드 로컬 NVMe 플래시. DRAM 이상으로 용량을 확장하지만 포드 전체에서 공유할 수 없습니다.
  • 티어 3.5 메모리: CMX(G3.5 계층)는재사용 가능한 핫 KV 캐시에 최적화된 이더넷 연결 플래시 입니다. BlueField-4 및 Spectrum-X를 통해 전체 컴퓨팅 포드에서 액세스할 수 있으므로 GPU가 다음 단계를 위해 컨텍스트를 다시 계산할 필요가 없습니다.3 
  • 티어 4 메모리: 스토리지, 일반적으로 NVMe/플래시는 장기 스토리지, 데이터 레이크 및 콜드 데이터 아카이빙에 사용됩니다.

BlueField-4 및 DOCA Memos의 역할

  • BlueField-4 DPU는 CMX의 "스토리지 두뇌" 역할을 합니다. GPU에서 데이터 무결성, 암호화 및 KV 캐시 라우팅을 오프로드하여 컴퓨팅 리소스가 토큰 생성에만 온전히 집중할 수 있도록 합니다.
  • DOCA Memos는 애플리케이션이 이 스토리지를 마치 로컬 캐시인 것처럼 상호 작용할 수 있도록 하는 단순화된 키-값 API를 제공합니다.

CMX의 주요 기능 및 특성

CMX는 하드웨어 가속 KV 캐시 배치, Spectrum-X를 통한 RDMA 기반 데이터 전송 및 NVIDIA Dynamo를 통한 원활한 오케스트레이션을 통해 향상된 성능을 제공합니다. 컨텍스트 재계산으로 인해 발생하는 유휴 시간 또는 "지연을"제거하여 GPU 활용도를 극대화하도록 설계되었으며, 대규모 엔터프라이즈 AI 팩토리를 위한 안전한 멀티 테넌트 환경을 제공합니다.

NVIDIA에서 보고한 성능 및 효율성 향상

측정 기준 기존 스토리지 NVIDIA CMX 플랫폼
처리량(TPS) 기준선(1x) 최대 5배 더 높음2
전력 효율성 표준 최대 5배 더 우수함2    
TTFT 지연 시간 높음(재계산) 낮음(캐시 재사용)
확장 로직 범용 AI 네이티브(KV 인식)

KV 캐시 재사용 및 NIXL

NVIDIA CMX는 NIXL(NVIDIA Inference Transfer Library)을 사용하여 이더넷 연결 플래시를 컨텍스트 풀로 전환하여 AI가 전체 데이터 세트를 다시 읽지 않고도 복잡한 작업을 즉시 재개할 수 있도록 합니다. 이러한 "즉각적인 재개" 기능은 AI가 작업을 일시 중지하고 외부 입력을 기다린 다음 완전한 인지 상태를 그대로 유지한 채 재개할 수 있는 진정한 에이전트 워크플로를 가능하게 합니다.

메모리 계층 구조에서 CMX가 위치하는 곳

CMX의 영향을 이해하려면 이를 현대 데이터 센터의 "누락된 연결 고리"로 보는 것이 도움이 됩니다. 전통적으로 티어 3의 빠른 DRAM 메모리와 티어 4의 표준 네트워크 스토리지 사이에는 상당한 성능 격차가 존재했습니다. CMX는 AI 에이전트가 즉시 기억해야 하는 "핫" 상황 데이터를 처리하도록 특별히 설계된, 티어 G3.5메모리라고 하는 새로운 전문 계층을 도입합니다.

계층 구조는 속도, 용량 및 비용의 균형을 맞추도록 구성되며, 각 계층은 크기와 지연 시간이 모두 증가합니다. 이 계층 구조에 CMX를 삽입함으로써 NVIDIA는 GPU가 대화의 "상태"를 비용 효율적인 플래시 계층으로 오프로드할 수 있도록 합니다. 사용자가 채팅으로 돌아가거나 에이전트가 작업의 다음 단계로 이동할 때, NIXL(NVIDIA Inference Transfer Library)은 값비싼 재계산의 필요성을 우회하여 해당 특정 메모리를 즉시 GPU로 다시 가져옵니다.2

현대 엔터프라이즈에서의 CMX 사용 사례

CMX는 긴 컨텍스트 추론, "즉각적인 재개" 세션 및 다중 에이전트 협업을 위한 기초 인프라입니다. 지속적인 고속 메모리 계층을 유지하는 것이 엄청난 비용이나 지연 시간을 발생시키지 않고 확장할 수 있는 유일한 방법인 수십억 개의 토큰에 걸쳐 수조 개의 매개변수를 배포하는 엔터프라이즈에 이상적입니다.

멀티턴 에이전트 추론

복잡한 법률 또는 의학 분석에서 에이전트는 며칠 간의 상호 작용에 걸쳐 수천 페이지의 문서를 "기억해야" 할 수 있습니다. CMX는 사용자가 상호 작용하는 순간 이 컨텍스트가"GPU에" 미리 준비되도록 하여 AI 에이전트가 반응이 빠르고 지식이 풍부하다고 느끼게 합니다.

동시성이 높은 AI 팩토리

수천 명의 동시 사용자가 있는 조직의 경우 CMX는 "메모리 월"로 인해 시스템이 충돌하는 것을 방지합니다. KV 캐시를 CMX 계층으로 오프로드함으로써 시스템은 GPU당 더 많은 사용자를 지원할 수 있어 총 소유 비용(TCO)을 크게 낮출 수 있습니다.

구현 및 생태계

CMX를 구현하려면 수냉식 JBOF 인클로저의 E3.S NVMe SSD와 짝을 이루는 NVIDIA의 BlueField-4 STX(Storage Technology eXtensions) 프로세서가 기본으로 필요합니다. NVIDIA는 모듈식 레퍼런스 아키텍처를 제공하며 제조 및 스토리지 파트너가 플랫폼을 구축합니다. 컴퓨팅 포드는 RDMA를 사용하여 Spectrum-X 이더넷을 통해 CMX에 액세스하며, KV 캐시 이동은 NVIDIA Dynamo에 의해 오케스트레이션되고 DOCA Memos가 BF4의 I/O 플레인을 처리합니다. 

CMX 인클로저의 생태계 

NVIDIA는 SSD 인클로저를 자체적으로 구축하지 않습니다. STX 참조 아키텍처는 여러 계층에 걸쳐 파트너가 구현하며, 2026년 하반기부터 플랫폼 출하가 시작됩니다.4

  • 제조 파트너 (JBOF/플랫폼 빌더): AIC, Supermicro 및 Quanta Cloud Technology(QCT).
  • 시스템 OEM: Dell Technologies, HPE, IBM, NetApp, Hitachi Vantara 및 Nutanix.
  • 스토리지 소프트웨어 제공업체: VAST Data, WEKA, DDN, MinIO, Cloudian 및 Everpure.
  • 초기 채택 클라우드 제공업체: CoreWeave, Crusoe, IREN, Lambda, Mistral AI, Nebius, Oracle Cloud Infrastructure 및 Vultr.

어떤 Solidigm™ 제품이 CMX에 가장 적합한 SSD입니까? 

CMX 배포에 적합한 SSD는 워크로드가 KV 캐시 수명 주기 중 어디에서 가장 많은 시간을 소비하는지, 그리고 제약 조건이 지연 시간 여유인지 랙 수준 밀도인지에 따라 다릅니다. Solidigm은 이 설계 공간의 반대쪽 끝에 매핑되는 두 개의 SSD를 제공합니다.

재사용이 지배적인 핫 컨텍스트 계층을 위한 Solidigm™ D7-PS1010

Solidigm D7-PS1010 은 지속적인 실제 추론 부하에서 높은 처리량과 예측 가능한 대기 시간을 위해 구축된 PCIe Gen5 TLC NVMe SSD입니다. 지연이 곧 유휴 GPU 주기로 직결되는 긴 컨텍스트 추론, 멀티턴 에이전트 세션 및 높은 동시성 포드에서는 D7-PS1010이 선호되는 선택입니다. 이 성능 프로필은 토큰 생성의 중요한 경로에 있는 지연 시간에 민감한 읽기를 위해 설계되었으며, 이는 포드 수준 컨텍스트 계층이 제공해야 하는 조건과 정확히 일치합니다.

용량 고정 컨텍스트 및 웜 스필오버를 위한 Solidigm™ D5-P5336

Solidigm D5-P5336은 최대 122TB의 용량으로 제공되는 고밀도 QLC NVMe SSD입니다. 제약 조건이 랙당 테라바이트인 CMX 배포에서 D5-P5336은 엄격한 랙 및 전력 한도 내에서 밀도를 극대화합니다. 또한 위의 CMX 계층에 공급하는 티어 4 네트워크 스토리지 계층을 고정하여 단일 공급업체로 전체 추론 스토리지 계층 구조를 구축하는 조직에 자연스럽게 적합합니다.

둘 중에서 선택하기

일반적인 지침:

  • 재사용이 많고 지연 시간에 민감한 KV 트래픽: D7-PS1010
  • 용량 고정형, 밀도 제약형 배포: D5-P5336
  • 혼합 포드: 둘 다 사용하며, D7-PS1010은 활성 CMX 계층을 지원하고 D5-P5336은 그 아래의 웜 컨텍스트와 데이터 레이크를 고정합니다.

플래시(특히 이러한 설계 절충점)가 추론 메모리 월에 대한 올바른 해답인 이유에 대한 자세한 내용은 Solidigm 기사 Inference Context Memory Storage(ICMS):를 참조하십시오. AI 추론이 플래시만이 해결할 수 있는 문제가 되고 있는 이유.

AI의 미래는 Context Memory Storage에 달려 있습니다.

기존 4계층 메모리 계층 구조에서 CMX로의 전환은 업계가 인공 지능의  "메모리"를 처리하는 방식에 있어 중추적인 변화를 나타냅니다. 기존 GPU VRAM 및 시스템 DRAM의 한계를 넘어 CMX는 차세대에이전트 AI에 필요한 고대역폭, 저지연 기반을 제공합니다.

모델이 단일 세션에서 수조 개의 매개변수와 수백만 개의 토큰을 처리하도록 진화함에 따라 키-값 캐시를 효과적으로 저장하고 재사용하는 기능은 더 이상 최적화가 아니라 필수 요구 사항입니다. CMX는 AI 팩토리가 5배 더 나은 전력 효율성2과 훨씬 더 높은 처리량으로 이러한 수요를 충족하도록 확장할 수 있도록 보장하여, 이전에 긴 컨텍스트 추론을 제한했던 "메모리 월"을 효과적으로 허물어줍니다.

혁신의 최전선에서 AI를 구축하는 기업의 경우 CMX는 상태 비저장 챗봇을 지속적이고 추론적인 도구로 변환하는 인지 인프라입니다. 이 특수 "G3.5" 계층을 데이터 센터 스택에 통합함으로써 조직은 마침내 계산적으로 강력할 뿐만 아니라 상황에 깊이 맞는 AI 경험을 제공할 수 있습니다.


FAQ

CMX는 Context Memory eXtension의 약자입니다. 일부 경우에는 Context Memory Storage라고도 합니다. CMX는 NVIDIA CEO Jensen Huang이 2026년 1월 CES에서 발표했을 때 개발 단계에서 이전에 ICMS(Inference Context Management Storage)로 불렸습니다. 그는 2026년 3월 NVIDIA GTC 기조 연설에서 ICMSP에서 CMX로의 이름 변경을 발표했습니다. 이 이름 변경은 기존의 파일 기반 데이터보다 AI 추론의 "컨텍스트" 또는 수학적 상태를 우선시하는 AI 네이티브 스토리지에 대한 NVIDIA의 더 넓은 비전을 반영합니다.

아니요, CMX는 하드웨어 그 이상입니다. CMX는 Solidigm D7-PS1010 또는 D5-P5336과 같은 NVMe SSD를 사용하지만, "마법"은 BlueField-4 DPU와 소프트웨어 스택(DOCA Memos, NIXL 및 Dynamo)에 있습니다. 이러한 조합을 통해 시스템은 기존 SSD로는 불가능한 호스트 CPU의 개입 없이 KV 캐시의 특정 구조를 이해하고 이를 GPU와 스토리지 간에 이동할 수 있습니다.

GPU는 종종 컨텍스트 데이터를 다시 계산하거나 느린 스토리지에서 가져오기를 기다리는 동안 유휴 상태로 있습니다. CMX는 이 데이터를 AI 워크로드에 맞게 특별히 조정된 "핫" 계층에 보관합니다. 사전 계산된 KV 캐시를 재사용함으로써 GPU는 중복 작업에 소비하는 시간을 줄이고 새 토큰을 생성하는 데 더 많은 시간을 할애합니다.

NVIDIA는 데이터 센터 메모리를 계층으로 분류합니다. G1과 G2는 온칩 및 온노드 메모리입니다. G3는 전통적으로 로컬 DRAM입니다. CMX는 기존의 네트워크 스토리지(G4)보다 빠르고 효율적이지만 로컬 SSD보다 더 확장 가능한 이더넷 연결, 포드 수준 컨텍스트 메모리의 새로운 범주로"G3.5"를 생성합니다. 

CMX로의 브랜드 변경은 명확성과 시장 정렬을 위해 수행되었을 가능성이 높습니다. "Context Memory Storage" 또는 "Context Memory eXtension"은 AI 스택에서 이 기술의 역할을 더 잘 설명하는 용어로서, 단순한 관리 시스템이 아니라 AI 모델의 "메모리"를 위한 특수 스토리지 플랫폼임을 강조합니다.

예, CMX는 NVIDIA Spectrum-X 이더넷 플랫폼에서 실행되도록 구축되었습니다. 이는 제로 카피 효율로 데이터를 전송하기 위해 RDMA(Remote Direct Memory Access)를 사용하기 때문에 중요합니다. Spectrum-X의 지연 시간이 짧고 손실 없는 패브릭이 없다면 CMX 계층의 성능 이점은 네트워크 지터로 인해 병목 현상이 발생할 것입니다.

현재 CMX는 풀스택 NVIDIA 솔루션입니다. 이는 NIXL 및 DOCA와 같은 NVIDIA 전용 라이브러리를 활용하여 Vera Rubin 및 Blackwell 플랫폼 내에서 작동하도록 설계되었습니다. 이는 추론에 필요한 밀리초 미만의 대기 시간을 제공하기 위해 NVIDIA 생태계와 긴밀하게 통합되어 있습니다.

CMX 계층의 데이터는 "일시적인 컨텍스트"로 처리됩니다. NVIDIA Dynamo와 같은 오케스트레이션 계층에 설정된 정책에 따라, 컨텍스트는 나중에 재사용하기 위해 캐시되거나 장기 아카이브를 위해 콜드 스토리지로 이동되거나 새 세션을 위한 공간을 확보하기 위해 삭제될 수 있습니다.

사용자가 새로운 질문을 할 때마다 100만 개의 컨텍스트 토큰을 다시 계산하면 엄청난 양의 전기가 소비됩니다. 사전 계산된 상태를 CMX에 저장하고 단순히 다시 "읽어들임으로써", 시스템은 전체 추론 계산을 다시 실행할 때보다 훨씬 적은 전력을 사용합니다.

NVIDIA CMX 및 기본 BlueField-4 STX 아키텍처는 2026년 하반기부터 하드웨어 및 스토리지 파트너를 통해 제공될 예정입니다. AIC, Supermicro 및 QCT와 같은 주요 공급업체는 이미 최초의 CMX 호환 스토리지 서버를 선보였습니다.


저자 소개

Jeff Harthorn은 Solidigm의 AI 응용 연구 책임자입니다. 그의 작업은 추론, 컨텍스트 메모리 및 데이터 파이프라인 설계에 중점을 두고 AI 워크로드와 스토리지 아키텍처 간의 관계에 초점을 맞춥니다. Jeff는 응용 연구, 벤치마킹 및 기술 스토리텔링을 결합하여 복잡한 인프라 주제를 고객, 공동 작업자 및 고위 경영진을 위한 실행 가능한 통찰력으로 전환합니다. 그는 캘리포니아 주립 대학교 새크라멘토 캠퍼스에서 컴퓨터 공학 학사 학위를 받았습니다.

Cecily Whiteside는 Solidigm의 Search 및 콘텐츠 전문가입니다. 그녀는 기술, 라이프스타일, 건강 및 웰니스 웹사이트 및 출판물을 위해 글을 씁니다. Cecily는 여러 잡지에서 편집장으로 일했으며, 미국 및 해외의 다른 매체에 작가 및 사진작가로 기고했습니다.

참조:

  1. NVIDIA CMX Context Memory Storage Platform; NVIDIA (https://www.nvidia.com/en-us/data-center/ai-storage/cmx/)
  2. 차세대 AI를 위한 NVIDIA BlueField-4 기반 CMX Context Memory Storage Platform 출시; NVIDIA. (https://developer.nvidia.com/blog/introducing-nvidia-nvidia-bluefield-4-powered-inference-context-memory-storage-platform-for-the-next-frontier-of-ai/)
  3. 추론 컨텍스트 메모리 스토리지(ICMS): AI 추론이 플래시만이 해결할 수 있는 문제가 되고 있는 이유; Solidigm. (https://www.solidigm.com/products/technology/icmsp-ai-inference-is-flash-storage-problem.html)
  4. NVIDIA Vera Rubin, 에이전트 AI 프론티어를 열다; NVIDIA 뉴스룸. (https://nvidianews.nvidia.com/news/nvidia-vera-rubin-platform)