SSD 오프로딩 기술을 이용한 AI 확장성 향상

메모리 사용량을 57% 줄이고 쿼리 속도를 50% 높인다고요? 불가능한 일 아닌가요?

검색 증강 생성(RAG) 기술을 통한 AI 추론은 지금 과거의 우드스탁(Woodstock)과 같은 획기적인 순간을 맞고 있습니다.

주최자는 전설적인 1969년 음악 축제에 약 50,000명이 참석할 것으로 예상했습니다. 하지만 지미 헨드릭스, 재니스 조플린, 더 후 등 수십 명에 달하는 환상적인 출연진과 시기적으로 완벽했던 저항 문화적 분위기 덕분에, 뉴욕 베델의 한 낙농장에서 열린 이 행사에 거의 50만 명의 인파가 모여들었습니다. 그 결과, 많은 사람들에게 있어서는 음악보다는 음식 부족과 위생 문제와 진흙 속에서의 고생이 더 기억에 남았습니다.

마찬가지로, RAG 기반 추론은 비즈니스 문제를 해결하는 데 있어 매우 강력하고 매력적인 접근 방식이어서, 많은 기업들이 앞다투어 이를 도입하고 있습니다. 물론, 문제는 충분한 인프라가 없으면 경험이 부족하거나 아예 접근이 불가능하여 이 기술의 잠재력이 제한된다는 점입니다.

전례 없는 수준의 확장성과 비용 효율성을 실현할 수 있는 새로운 접근 방식이 필요합니다. Solidigm과 Metrum AI의 획기적인 작업 결과를 공유하게 되어 기쁘게 생각합니다. 여기에서 소개하는 전략은 AI 모델 가중치와 RAG 데이터 등 많은 양의 데이터를 값비싼 메모리에서 고성능 SSD로 오프로딩하는 것으로, 지금까지와는 차원이 다른 방식으로 AI의 가치를 실현할 수 있습니다.

Metrum AI의 CEO인 Steen Graham은 "우리는 첨단 비전-언어 모델과 대규모 언어 모델을 활용하여 풍부하고 맥락 있는 요약 정보를 생성하는 영상 분석용 첨단 RAG 솔루션을 개발했습니다"라고 말하면서, “Solidigm D7-PS1010 SSD에 구축하고, 메모리 효율이 높은 고속 벡터 검색을 위해 DiskANN을 통합함으로써 성능 저하 없이 메모리 사용을 최적화했습니다”라고 덧붙였습니다.

당사의 접근 방식과 주요 결과에 대한 자세한 내용을 계속 읽어 보십시오. 또한, TCO에 최적화된 SSD 오프로딩 기반 고성능 RAG라는 백서 전문을 다운로드하실 수도 있으며, 직접 확인해 보고 싶은 분들을 위해, 전체 내용을 여기 GitHub 저장소에 공개하여 직접 사용해 볼 수 있도록 했습니다!

RAG란 무엇이며, 왜 이렇게 주목받고 있는가?

간단한 예: AI 챗봇에게 해외 여행 시 필요한 서류에 대한 안내를 요청한다고 상상해 보십시오. 모델의 교육 데이터 세트에 정확한 정보가 충분히 있다면 유용한 답변을 제공해 줄 것입니다.

그렇지 않으면 두 가지 중 하나의 현상이 발생할 수 있습니다. AI는 모른다고 하거나, 더 나쁘게는 자신 있게 잘못된 답을 제공할 수 있습니다. 이를 환각(Hallucination)이라고 하는데, 생각보다 더 자주 발생합니다.

AI의 가치는 분명히 모델에 사용 가능한 데이터의 양 및 품질과 관련이 있습니다.

이름에서 알 수 있듯이, 검색 증강 생성 기술은 응답을 생성하기 전에 모델 지식을 증강하기 위해 추가 관련 데이터를 검색하는 것입니다. 이는 모델을 원래의 교육 세트에 포함되지 않은 데이터 소스에 연결하여 수행합니다. 이 데이터 소스는 기업 내부의 데이터베이스, 뉴스 피드, 심지어 위키피디아까지 거의 모든 소스가 될 수 있습니다. 따라서 이 예에서는, 사용자의 여행 질문이 이들 소스 중 하나 이상의 소스에 전달되면, 관련 정보를 수집한 후에 이를 AI 모델로 보내 처리하기 때문에 좋은 응답을 생성할 가능성이 높아집니다.

RAG의 이점은 두 가지입니다.

기업은 더 많은 데이터를 포함하기 위해 모델을 지속적으로 재교육할 필요가 없습니다.
이는 각 모델이 공개 교육 세트에서 사용 가능한 정보보다 시기적절하고 권위 있고 구체적인 정보를 참조할 수 있게 해 줍니다.

거대한 컨텍스트 윈도우를 제공하는 새로운 모델들 때문에 RAG는 이미 시대에 뒤쳐진 것인지에 관한 흥미로운 논쟁이 뜨거워지고 있습니다. 예를 들어, Meta의 Llama 4 Scout은 천만 개의 토큰을 수용할 수 있습니다. 논점은 이렇게 많은 데이터를 프롬프트에 피드할 수 있다면, 외부 데이터 소스에 연결할 필요 없이 프롬프트 자체에 관련된 모든 정보만 포함하면 되지 않느냐는 것이었습니다.

이는 표면적으로는 타당한 주장처럼 보이지만, 다소 성급한 것일 수도 있습니다. 2025년 3월에 발표된 한 연구 논문에서는 이러한 대용량 컨텍스트 윈도우를 지원하는 일부 최신 모델들의 리콜 능력(정확도)을 테스트했습니다. 그 결과, 모델이 명목상 수백만 토큰의 컨텍스트 윈도우를 지원하더라도 대부분의 경우, 아주 작은 부분에 불과한 약 2천 토큰 정도를 넘어서면 리콜 능력이 저하된다는 사실을 발견했습니다.

문제는?

우리는 기업이 RAG 지원 추론을 채택하는 이유를 확인할 수 있습니다. 문제는 우드스탁의 주최자들이 50여년 전에 직면했던 것과 동일한 것입니다. 더 많은 사용자가 아주 갑자기 더 많은 것을 요구하고 있는 것입니다.

특히 기업들은 다음과 같은 것을 원합니다.

AI 모델이 활용할 수 있는 데이터의 양과 질을 높일 수 있는 더 큰 RAG 데이터세트
데이터를 처리하고 고품질 인사이트를 생성할 수 있는 더 복잡한 모델

이 중 어느 것도 나쁜 목표는 아닙니다. 그러나 둘 다 많은 데이터가 포함되어 있어 어딘가에 이를 저장해야 합니다. 오늘날처럼 모델 가중치와 RAG 데이터가 주로 메모리에 저장되는 환경에서는, 이러한 방식을 사용하면 순식간에 막대한 비용이 필요하게 됩니다.

SSD 오프로드 접근 방식 소개

Solidigm은 Metrum AI와 협력하여 새로운 진로를 개척했습니다. 우리의 접근 방식은 AI 추론 시 상당한 양의 데이터를 메모리에서 SSD로 이동시키기 위해, 신중하게 선정되고 함께 원활하게 작동하도록 정교하게 조정된 오픈소스 소프트웨어 구성 요소를 기반으로 합니다.

여기에는 두 가지 주요 구성 요소가 있습니다.

RAG 데이터 오프로드: 대규모 벡터 데이터 검색을 위한 알고리즘 제품군인 DiskANN을 사용하여 RAG 데이터 세트의 일부를 SSD로 재배치할 수 있습니다. 이때의 주요 이점은 훨씬 더 비용 효과적인 방식으로 훨씬 더 큰 데이터 세트로 확장할 수 있다는 것입니다.
모델 가중치 오프로드: DeepSpeed 소프트웨어 제품군과 함께 Ray Serve를 사용하면 AI 모델 자체의 일부를 SSD로 이동할 수 있습니다. 이렇게 함으로써 얻을 수 있는 주요 이점은 고정된 GPU 메모리 예산으로 더 복잡한 모델 또는 여러 모델을 사용할 수 있다는 점입니다. 예를 들면, 우리는 일반적으로 약 160GB의 메모리를 요구하는 700억 개 매개변수 규모의 모델을, 최대 메모리 사용량을 7GB 내지 8GB에 불과한 수준으로 줄인 상태에서 실행할 수 있음을 입증했습니다.

주요 결과

1. DRAM 사용량 감소

메모리에서 SSD로 AI 데이터를 오프로드하는 주요 이점은 당연히 메모리가 더 적게 필요하다는 것입니다. 우리는 데이터베이스용 오픈 소스 벤치마킹 도구인 VectorDBBench를 사용하여 100만 개의 벡터에서 1억 개의 벡터에 이르기까지 크기가 점점 더 커지는 세 가지 데이터 세트에 대한 효과를 측정했습니다.

이점의 규모는 데이터베이스 크기에 비례하여 증가했습니다. 즉, 처리하는 데이터가 많을수록 메모리 절약 효과가 커진다는 것입니다. 가장 큰 데이터 세트에서는 DRAM 사용량이 191GB, 즉 57% 감소했습니다. 오늘날의 가격 책정 기준으로 볼 때 이는 상당한 비용이 절감되는 것입니다.

2. 쿼리 속도 증가

메모리에서 SSD로 데이터를 이동하면서 초당 쿼리(QPS)로 측정한 성능이 증가하는 것을 관찰했는데, 중간 데이터 세트에서 최대 70%, 최대 데이터 세트에서는 최대 50% 증가했습니다. 다시 말해, 적은 메모리로 추론할 수 있을 뿐만 아니라 더 빠르게 추론할 수 있었다는 것입니다.

이것은 직관에 반하는 것처럼 보일 수 있습니다. 메모리에서 읽을 때보다 저장장치에서 읽을 때 성능이 향상되는 경우를 언제 본 적이 있으십니까? 하지만 우리는 이 숫자를 세 번이나 확인했습니다. 기본 매개변수로 구성한 경우, DiskANN이 HNSW(기존 메모리 기반 접근 방식)보다 높은 QPS를 생성했습니다. DiskANN에서 사용하는 Vamana와 같은 많은 전처리가 포함된 인덱싱 알고리즘은 벡터를 SSD에 효율적으로 패킹하여 유사성 검색 속도를 극적으로 크게 높일 수 있습니다(인덱싱에 대해서는 나중에 자세히 알아볼 것입니다).

Solidigm 테스트에서는 특정 매개변수를 수정하면 HNSW 성능을 개선할 수 있지만, 메모리 사용량은 훨씬 더 높아진다는 점은 언급할 만한 가치가 있습니다.

3. 고려해야 할 점 구축 시간 증가

세상에 공짜 점심은 없다고들 하지만, 여기에서도 마찬가지입니다. RAG 지수를 구축하는 데 걸리는 초기 시간은 오프로드 접근 방식을 사용할 때 30%~60% 더 많이 걸립니다.

물론, 더 많은 작업을 미리 수행하는 데 대한 보상은 일단 스택이 구축된 후 지속되는 작업에서는 더 나은 성능을 발휘하는 것입니다.

특정 사용 사례에서는 이것이 결정적인 단점이 될 수 있습니다. 그러나 그외 대부분의 경우에는 메모리 감소와 QPS 개선이라는 이점이 증가된 인덱스 구축 시간을 훨씬 능가할 것입니다. 어쨌든 인덱싱은 가치 있는 통찰력을 얻기 위해 실제로 모델을 사용하는 빈도에 비해 빈번하지 않은 활동입니다.

4. 높은 정확도

마지막으로, 리콜 또는 모델 출력이 얼마나 정확한지에 대한 메모입니다. 기존 방식과 SSD 오프로드 방식 간에는 유의미한 차이가 관찰되지 않았으며, 두 방식의 클록킹 속도는 100%에 육박했습니다. 즉, 데이터를 오프로드해도 출력 품질이 저하되지 않았습니다.

결론

위 내용이 저희가 측정한 결과입니다. 이는 비용부담을 최소화하면서도 추론 파이프라인에 대량의 데이터를 통합하고자 하는 기업들에게 상당한 가치가 있다고 믿습니다. RAG 데이터를 오프로드한다는 것은 더 적은 비용을 들여서 더 큰 데이터 세트로 확장한다는 것을 의미합니다. 모델 가중치를 오프로드하면 기업들은 GPU 메모리 제약이 더 심한 레거시 하드웨어 또는 엣지에 솔루션을 더 쉽게 구축할 수 있습니다.

하지만, 저희 말을 그대로 믿지 않으셔도 좋습니다. 이러한 결과를 직접 재현하는 데 필요한 모든 것을 GitHub 저장소에서 확인하실 수 있습니다. 또한 TCO에 최적화된 SSD 오프로딩 기반 고성능 RAG라는 백서에서 데이터 및 방법론에 대해 자세히 살펴보실 수 있습니다.

무엇을 찾고 계시나요?

환영

내 프로필

mySolidigm

설정

로그아웃

SSD 오프로딩 기술을 이용한 AI 확장성 향상

메모리 사용량을 57% 줄이고 쿼리 속도를 50% 높인다고요? 불가능한 일 아닌가요?

검색 증강 생성(RAG) 기술을 통한 AI 추론은 지금 과거의 우드스탁(Woodstock)과 같은 획기적인 순간을 맞고 있습니다.

RAG란 무엇이며, 왜 이렇게 주목받고 있는가?

RAG의 이점은 두 가지입니다.

문제는?

SSD 오프로드 접근 방식 소개

주요 결과

1. DRAM 사용량 감소

2. 쿼리 속도 증가

3. 고려해야 할 점 구축 시간 증가

4. 높은 정확도

결론

저자 소개

참고

관련 기사

Solidigm이 대용량 드라이브로 네트워크 제한을 해결하는 방법

Solidigm은 어떻게 SSD 포장 기술 혁신을 주도하고 있는가

엣지로 이동하는 엔터프라이즈 컴퓨팅

AI 학습 성능 솔루션 개요

AI 워크로드용 SolidigmTM S3 퓨즈 조사 및 개념 증명 설계

DUG는 지진 탐색에서 RNA 염기서열분석에 이르기까지, VAST 데이터 플랫폼과 Solidigm QLC SSD를 활용하여 HPCaaS 재정의