추론 컨텍스트 메모리 스토리지 플랫폼(ICMSP): AI 추론이 플래시 문제가 되는 이유

AI 추론용 NVIDIA ICMSP는 컨텍스트를 기억하는 수천 개의 스티커 메모와 같은 동시 세션에서 재계산을 줄입니다.
AI 추론용 NVIDIA ICMSP는 컨텍스트를 기억하는 수천 개의 스티커 메모와 같은 동시 세션에서 재계산을 줄입니다.

최신 AI 시스템이 프로세서 근처에서 유지되도록 설계된 것보다 훨씬 더 많은 컨텍스트를 전달함에 따라 추론이 새로운 메모리 벽에 부딪히고 있습니다. AI가 원샷 프롬프트에서 장기 실행 대화 및 에이전트 워크플로우로 전환됨에 따라 추론의 메모리 풋프린트가 빠르게 확장되고 있습니다. 이렇게 하면 인프라 스택의 새로운 병목 현상이 발생합니다.

수천 개의 대화형 애플리케이션, 어시스턴트 및 자율 에이전트를 동시에 지원하는 GPU 랙을 상상해 보십시오. 각 상호 작용은 그 자체로는 가벼워 보일 수 있지만, 함께 일관되고 효율적인 응답을 유지하기 위해 보존해야 하는 "작업 메모리"의 축적이 증가하고 있습니다.

이 작업 메모리는 중복 계산을 피하기 위해 이전에 계산된 키/값 쌍을 저장하여 생성 중에 재사용할 수 있도록 키-값(KV) 캐시에 있습니다.1

해당 컨텍스트가 GPU에 가장 가까운 메모리 계층에 더 이상 맞지 않으면 성능이 저하됩니다. 지연 시간이 증가합니다. 처리량이 감소합니다. 그리고 데이터 센터에서 가장 비싼 하드웨어 중 일부는 유휴 상태가 되기 시작합니다. 

Jensen Huang NVIDIA CEO가 CES 2026에서 NVIDIA Live를 통해 소개한 바와 같이, NVIDIA의 추론 컨텍스트 메모리 스토리지 플랫폼(ICMSP 또는 단축된 “ICMS”)은 파드 수준의 플래시 지원 컨텍스트 계층을 랙 규모에서 공유하고 재사용할 수 있는 AI 네이티브 KV 캐시 계층으로 포지셔닝합니다.2,3,4 

추론 메모리 월

지난 10년 동안 AI 인프라 논의는 GPU 공급에 중점을 두었습니다. 추론 워크로드가 진화함에 따라 시간이 지나면서 초점이 확장되어 컨텍스트가 축적되는 방식이 포함됩니다. 모델이 더 유능해짐에 따라 추론은 상태를 폐기하기보다는 점점 더 상태를 유지합니다.

KV 캐시는 성능에 필수적이지만 한 번에 여러 차원에서 확장됩니다.

  1. 컨텍스트 윈도우가 길수록 각 세션의 캐시 크기가 커집니다.
  2. 동시성이 높을수록 사용자 전체의 총 설치 공간이 여러 배로 늘어납니다.
  3. 에이전트 워크플로우는 세션 수명을 연장하여 컨텍스트를 단일 프롬프트-응답 교환보다 훨씬 더 오래 활성 상태로 유지합니다.

그 결과 추론 서비스는 컴퓨팅이 제한되기 훨씬 전에 메모리가 제한될 수 있습니다. GPU는 사용 가능한 주기가 있더라도 컨텍스트가 검색되거나 다시 계산되기를 기다리는 동안 정지할 수 있습니다. 이 효과는 테일 지연 시간이 중요하고 워크로드가 동적으로 변동하는 실제 조건에서 가장 잘 보입니다.

한 가지 일반적인 접근 방식은 데이터 센터에 이미 존재하는 공유 스토리지 시스템에 컨텍스트를 푸시하는 것입니다. 활성 추론의 경우, 새로운 지연 시간 및 트래픽 문제가 발생합니다. 기존 파일 시스템 및 객체 저장소는 토큰 생성의 중요한 경로에 직접 있는 지연 시간에 민감한 읽기가 아니라 내구성과 공유에 최적화되어 있습니다. KV 트래픽이 네트워크 전체에서 남북으로 이동함에 따라 지연 시간이 예측하기가 어려워지고 혼잡이 증가합니다.

KV 캐시에는 메모리와 같은 응답성과 함께 스토리지 스케일 용량이 필요합니다. NVIDIA의 ICMS/ICMSP 개념은 이러한 격차를 해결하는 것을 목표로 합니다.3,4

NVIDIA 추론 메모리 계층 구조의 G3.5 컨텍스트 계층

NVIDIA는 추론 컨텍스트 메모리 스토리지 플랫폼을 NVIDIA BlueField-4 데이터 프로세서를 사용하여 고속 GPU 메모리와 확장 가능한 공유 스토리지 간의 격차를 메우기 위해 파드 수준에서 작동하는 전용 컨텍스트 메모리 계층을 생성하는 완전히 통합된 스토리지 인프라라고 설명합니다. 3,4 

NVIDIA의 기술 설명에서는 새로운 "G3.5" 레이어를 도입합니다. KV 캐시에 맞게 특별히 최적화된 이더넷 연결 플래시 계층으로, 공유되고 진화하는 다중 회전 에이전트 컨텍스트에 맞게 충분히 크고 디코딩을 멈추지 않고 GPU/호스트 메모리로의 빈번한 사전 스테이징을 위해 충분히 가깝게 설계되었습니다. 

실제로 NVIDIA는 ICMS/ICMSP를 파생 추론 상태에 최적화된 랙/파드 로컬 플래시 계층으로 포지셔닝합니다(특성상 일시적). 컨텍스트 블록은 각 노드에서 동일한 기록을 독립적으로 재구체화하지 않고 여러 서비스에서 저장, 재사용 및 오케스트레이션한 다음 필요한 경우 다시 준비할 수 있습니다. 3

로컬 SSD와 NAS 개체 스토리지 간의 활성 참조를 위한 ICMSP 새 계층 그림 1. 활성 참조를 위한 ICMSP 새 계층

개념적으로 말해, 이는 GPU HBM과 데이터 레이크 사이에 중간 계층을 생성합니다. 기존 스토리지 시스템을 대체하지는 않지만 활성 추론 상태가 처리되는 방법과 위치가 바뀝니다.

추론 인프라를 위한 세분화 모델

ICMS/ICMSP를 이해하는 한 가지 방법은 추론 인프라를 세 가지 영역으로 보는 것입니다.

컴퓨팅 노드

GPU에 가장 가까운 컴퓨팅 노드는 HBM, 시스템 메모리 및 로컬 SSD에서 즉시 작동하는 세트를 보유합니다. 여기서 토큰이 생성되고 지연 민감도가 가장 높습니다.

파드-로컬 컨텍스트 계층

그것과 함께 ICMS/ICMSP 파드-로컬 컨텍스트 계층이 있습니다. 이 계층은 GPU에 가까운 메모리에 영구적으로 남아 있기에는 너무 크지만 여전히 빠르고 예측 가능하게 액세스해야 하는 추론 상태를 유지합니다. NVIDIA는 이를 Spectrum-X 이더넷과 페어링할 때 예측 가능하고 지연 시간이 짧은 RDMA 기반 액세스 특성을 가진 파드 수준 컨텍스트 계층으로 설명합니다. 3,4

데이터 레이크

파드 너머에는 모델, 데이터 세트, 로그 및 아티팩트에 대한 내구성 있는 기록 시스템으로 남아 있는 데이터 레이크가 있습니다. 이 계층은 필수적이지만 토큰별 응답성을 위해 설계되지 않았습니다. ICMS/ICMSP는 지연 시간에 민감한 KV 데이터를 주로 내구성을 위해 설계된 스토리지 인프라로 푸시하는 압력을 줄여 데이터 레이크를 보완합니다. 3

이 모델을 지원하려면 용량만 필요한 것이 아니라 추론 컨텍스트를 파드 규모로 효율적으로 관리할 수 있는 방법이 필요합니다.

추론 컨텍스트가 있는 GPU Pod 메모리 스토리지 플랫폼(ICMSP) 계층 그림 2. GPU 파드 KV 캐시

ICMS/ICMSP에서 DPU의 역할

ICMS/ICMSP는 추론 컨텍스트를 위한 전용 처리 계층을 도입하여 SSD 용량을 추가하는 것 이상으로 확장됩니다. NVIDIA의 발표 자료는 플랫폼이 NVIDIA BueField-4 데이터 프로세서에 의해 구동되고 Spectrum-X 이더넷과 페어링되어 KV 캐시 데이터에 대한 효율적인 RDMA 기반 액세스를 지원한다는 점을 강조합니다.3,4

NVIDIA는 또한 BlueField-4가 메타데이터 오버헤드와 데이터 이동을 줄이는 하드웨어 가속 KV 캐시 배치를 가능하게 하는 반면 Spectrum-X 이더넷은 AI 네이티브 KV 캐시에 대한 액세스를 위한 고성능 패브릭 역할을 한다고 주장합니다.4

종합해 볼 때 NVIDIA가 설명하는 아키텍처 선택 사항은 컨텍스트 처리를 GPU에 더 가깝게 유지하고 더 예측 가능하게 유지하여 추론 로드에서 컨텍스트를 기다리는 데 소요되는 지연과 시간을 줄이도록 설계되었습니다.

추론 메모리 크기를 조정하는 새로운 방법

ICMS/ICMSP의 가장 중요한 의미 중 하나는 추론 인프라에 대한 용량 계획이 어떻게 발전하는지입니다. 추론 컨텍스트는 각 가속기에 연결된 고정 메모리 양이 아닌 랙 스케일/파드 스케일 리소스가 됩니다.

NVIDIA의 기술 설명에서 G3.5 계층은 추론 컨텍스트를 위해 GPU 파드당 페타바이트 단위의 공유 용량을 제공하여 HBM/DRAM/로컬 SSD 이상으로 계층을 확장하는 동시에 기존 공유 스토리지보다 훨씬 더 가까운(그리고 더 짧은 지연 시간) 상태를 유지합니다.3

이를 통해 추론을 위한 새로운 "플래시 승수"가 도입됩니다. GPU 배포는 점점 더 파드 내부(또는 바로 인접)에 배치된 고밀도의 전력 효율적인 SSD에 대한 수요를 주도하고 있습니다.

ICMSP 등급 시스템의 양상

초기 ICMSP 등급 시스템은 익숙한 스토리지 빌드 블록과 비슷하지만 용도가 변경되었습니다. “새로운 목적”은 구성 요소 자체가 아니라, 일반 애플리케이션에 파일/객체를 제공하는 대신 추론 로드 시 메모리와 같은 응답성과 예측 가능한 동작으로 KV 캐시 컨텍스트를 제공해야 하는 요구 사항입니다.3,4

  1. 고밀도 NVMe 쉘프는 대용량 풀링 플래시 용량을 제공합니다.
  2. DPU(NVIDIA가 구현에 대해 설명한 대로: BlueField-4)는 컨텍스트 배치 및 데이터 이동 기능을 처리하여 풀을 전면에 배치합니다.3,4
  3. 고대역폭, 저지연 이더넷(NVIDIA 하이라이트 Spectrum-X 이더넷)은 계층을 나머지 파드에 연결합니다.3,4

하드웨어 관점에서 볼 때, 이는 역할이 변경되더라도 잘 알려진 인프라로 보입니다. 시스템은 파일이나 객체를 제공하는 대신, 로드 시 예측 가능한 동작과 함께 파생 추론 컨텍스트를 저장하고 제공합니다.

컨텍스트 메모리의 필요성을 촉진하는 워크로드

ICMS/ICMSP에 대한 수요는 현대 추론을 만들어 나가는 것과 동일한 워크로드에 의해 촉진되고 있습니다. 에이전트 시스템은 단일 응답보다 훨씬 더 오래 컨텍스트를 유지하며 관찰, 계획, 행동 및 반영과 같은 루프에서 작동합니다. 긴 컨텍스트 추론은 모델 자체가 GPU 메모리에 편안하게 들어맞더라도 KV 캐시를 증가시킵니다. 동시성이 높은 배포는 테일 동작과 예측 가능성을 미가공 처리량만큼 중요하게 만듭니다.

이러한 환경에서, 컨텍스트는 1차 용량 고려 사항이 됩니다.

SSD 요구 사항에 대한 ICMSP의 의미

플래시를 컨텍스트 메모리로 취급하면 구매자가 최적화할 수 있는 목적의 양상을 바꿉니다. 파드 공간이 제한적이고 GPU 수에 따라 컨텍스트가 확장되기 때문에 밀도가 매우 중요합니다. AI 공장은 공간뿐만 아니라 전력의 제한을 받기 때문에 전력 효율성이 중요합니다. 느린 읽기가 유휴 GPU로 바로 변환되기 때문에 예측 가능한 지연 시간과 서비스 품질이 중요합니다.

또한 내구성은 컨텍스트의 행동 방식과 일치해야 합니다. 일부 워크로드는 KV를 많이 재사용하는 반면, 세션이 생성되고 제거됨에 따라 공격적으로 고객이 이탈하는 워크로드도 있습니다. 외부 KV 캐시 계층에 의존하는 추론 아키텍처에서, 지속적인 실제 조건에서의 SSD 동작은 피크 벤치마크 성능보다 더 중요합니다.

솔리다임이 컨텍스트 오프로드 시대에 차지하고 있는 적합한 위치

Solidigm™의 경우 랙-로컬 컨텍스트 계층의 출현은 이러한 단순한 아이디어를 강화합니다. 추론이 더욱 지속적이고 여러 차례 진행됨에 따라, 대용량 플래시는 더 가까이 이동하여 컨텍스트에 액세스 가능하고, 예측 가능하며 비용 효율적으로 대규모로 유지됩니다.

솔리다임은 설계 공간의 두 끝에 매핑되는 SSD로 이러한 전환을 지원합니다.

  1. 지연 시간 헤드룸이 협소한 곳에서 최대 성능 발휘: Solidigm™ D7-PS1010은 높은 처리량과 실제 IO 조건을 위해 설계된 PCIe Gen5 SSD 옵션입니다.
  2. 랙당 테라바이트가 지배하는 최대 밀도: Solidigm™ D5-P5336 SSD는 제한된 랙/전원 엔벨로프에서 매우 높은 용량(최대 122TB 구성 포함)으로 배치되어 밀도를 극대화합니다.

요구 사항이 성숙됨에 따라 올바른 SSD 선택은 KV 수명 주기가 얼마나 재사용과 고객 이탈의 지배를 받는지, 그리고 대규모로 지연 요구 사항이 얼마나 엄격하게 적용되는지에 따라 달라집니다.

달러와 와트 단위의 가치

NVIDIA는 ICMS/ICMSP 개념에 구체적인 성능/효율성 주장을 공개적으로 첨부했습니다. 예를 들어, 발표 자료에서 “기존 스토리지”와 비교하여 초당 최대 5배의 토큰과 최대 5배의 전력 효율성 개선(기본/워크로드에 따라 달라지며 NVIDIA의 주장에 제시됨)이 있습니다. 2,4

실제로 컨텍스트 계층의 값은 고정 지연 시간 대상에서 지연을 줄이고 활용도를 개선하며 동시성을 높일 때 나타납니다. GPU 시간이 스토리지 용량보다 훨씬 더 많은 비용이 들기 때문에 이러한 효과는 전달된 토큰당 비용 감소로 직결됩니다.

더 큰 그림

ICMS/ICMSP는 AI 인프라가 향하고 있는 곳이 어디인지 신호를 줍니다. 추론 효율성을 중심으로 컴퓨팅, 네트워킹 및 스토리지가 공동 설계된 랙 규모의 시스템이 그 방향입니다.  추론이 더욱 지속적이고 에이전트적인 상태가 됨에 따라, 중심적인 과제는 GPU에 가까운 메모리를 넘어서 성장함에 따라 시스템이 컨텍스트를 얼마나 정상적으로 처리하는지가 됩니다.

점점 더 많은 답은 메모리가 부족한 곳에 플래시를 배치하고 파드의 일부처럼 작동할 수 있을 만큼 가까이에 두는 것입니다. 이러한 패턴이 확산됨에 따라 스토리지는 AI 추론의 경제성을 형성하는 주요 수단 중 하나가 됩니다.

이러한 환경에서 스토리지는 수동 용량에서 액티브 인프라로 전환됩니다. 추론 컨텍스트에서 플래시를 선택하려면 밀도, 전력 효율성 및 지속적인 실제 부하 아래 예측 가능한 동작에 주의해야 합니다.

솔리다임은 AI 인프라 빌더와 협력하여 이러한 새로운 요구 사항에 맞춰 플래시 기술을 조정함으로써 추론 인프라가 확장됨에 따라 추론 컨텍스트를 액세스 가능하고 효율적이며 비용 효율적으로 유지할 수 있도록 지원합니다. 자세한 내용은 www.solidigm.com에서 알아보세요.


저자 소개

Jeff Harthorn은 Solidigm의 AI 데이터 인프라 마케팅 분석가입니다. Jeff는 솔루션 아키텍처, 제품 계획 및 마케팅에 대한 실무 경험을 갖추고 있습니다. 그는 수냉식 E1.S SSD에 대한 경쟁력 분석을 포함한 기업 AI 메시징을 구체화하여 기술적 세부사항을 고객과 협업 파트너를 위한 명확한 비즈니스 가치로 변환해 줍니다. Jeff는 새크라멘토 캘리포니아 주립대학에서 컴퓨터 공학 학사 학위를 받았습니다.

출처

  1. NVIDIA TensorRT-LLM 문서(KV 캐시 정의/ 행동): https://nvidia.github.io/TensorRT-LLM/latest/features/kvcache.html
  2. NVIDIA 블로그(CES 요약, 2026년 1월 5일): “NVIDIA Rubin 플랫폼, 개방형 모델, 자율 주행…” https://blogs.nvidia.com/blog/2026-ces-special-presentation/
  3. NVIDIA 기술 블로그(2026년 1월 6일): “NVIDIA BlueField-4 기반 추론 컨텍스트 메모리 스토리지 플랫폼 소개…” https://developer.nvidia.com/blog/introducing-nvidia-bluefield-4-powered-inference-context-memory-storage-platform-for-the-next-frontier-of-ai/
  4. NVIDIA 뉴스룸/보도 자료(2026년 1월 5일): “NVIDIA BlueField-4, 새로운 차원의 AI 네이티브 스토리지 인프라 지원…” https://nvidianews.nvidia.com/news/nvidia-bluefield-4-powers-new-class-of-ai-native-storage-infrastructure-for-the-next-frontier-of-ai