토큰 20,000,000,000,000개 또는 원한다면 20조 개. Alibaba의 최신 LLM 기초 모델인 Qwen2.5-MAX에서 추정되는 훈련 데이터세트 토큰 수입니다.1 자신과 후손이 (불행히도) 전체 토큰을 순서대로 입력하는 일에 동원되었다면, 약 600,000,000년이 걸릴 테니,2 계획을 잘 세워야 할 것입니다. 이 모든 것을 볼 때 최신 AI가 엄청난 정보를 먹어치우기 때문에 AI 데이터 입출력을 저장하고 활성화하면 전례 없는 스토리지 용량과 효율성 문제가 발생함을 알 수 있습니다. 네트워크 연결 스토리지(NAS) 솔루션은 AI 모델 개발 및 배포에 필요한 대규모 데이터세트를 관리하는 중요한 요소로 부상했습니다. AI에서 NAS가 맡는 중추적 역할, 대용량 솔리드 스테이트 드라이브(SSD)의 가치, 이러한 드라이브가 AI 데이터 파이프라인의 어디에 어떻게 들어가야 적절한지 알아보겠습니다.
궁극적으로 AI는 데이터와 강력한 컴퓨팅의 산물이지만, 미가공 데이터를 선명한 모델로 바꾸려면 노력이 필요합니다. AI 데이터 파이프라인에는 다음과 같이 별도의 연결된 단계가 포함됩니다.
NAS는 분산 시스템 전반에서 방대한 양의 데이터에 빠르게 접근함으로써 AI 프로세스를 지원하는 일원화되고, 확장 가능하며, 접근 가능한 스토리지 아키텍처의 역할을 합니다. 로컬에서 GPU 컴퓨팅 서버에 상주하는 직접 연결 스토리지(DAS)와 달리, NAS는 여러 서버, GPU, 엣지 장치 간 데이터 공유를 원활하게 하므로, 협업적이고 반복적인 특성을 갖는 AI 워크플로우에 적합합니다. 대용량 SSD로 최적화된 NAS 시스템은 잠재적으로 방대한 데이터세트를 쉽게 처리할 수 있어 지연 시간을 최소화하는 동시에 GPU 활용도를 극대화합니다.
머신 러닝에서 데이터의 양과 다양성은 모델 성능의 중요한 동인입니다. 훈련 데이터가 다양하고 규모가 클수록 모델이 실제 상황에 가깝게 일반화됩니다. 모델은 광범위한 패턴과 엣지 케이스에서 학습하므로, 훈련 데이터의 양을 늘리면 성능이 크게 향상될 수 있습니다.
그러나 원시 데이터의 입력은 시작점에 불과합니다. AI 데이터 파이프라인은 운영 과정 전반에서 아래와 같은 증분 데이터세트를 생성하고 사용하게 됩니다.
이러한 데이터세트는 증분식이며 초기 원시 데이터세트 크기를 넘어 스토리지 요건을 크게 증폭시키는 효과가 있으므로, NAS 솔루션에서 대용량 드라이브가 중요한 구성요소가 됩니다.
최근 설문조사에서 글로벌 데이터 센터 인프라 제공업체 Digital Realty는 고객에게 공식 AI 전략을 채택할 때 가장 방해가 되는 요인을 물어보았습니다.3 가장 큰 문제는 대규모 데이터세트를 수용하는 데 필요한 데이터 스토리지의 부족이었고, 그 다음은 컴퓨팅에 사용할 수 있는 전력 부족, 데이터 스토리지공간 부족 순이었습니다.
이 문제에 대한 Solidigm의 답은 세계 최대 용량의 PCIe SSD인 122.88TB Solidigm™ D5-P5336입니다. 이 드라이브는 탁월한 드라이브 용량, 전력 효율성, 데이터 밀도로 AI 기반 NAS 배포의 판도를 바꿀 수 있습니다. 주요 특징은 다음과 같습니다.
이러한 속성은 특히 스토리지의 용량, 내구성, 효율성이 가장 중요한 수집 및 보관 단계에서 AI 데이터 파이프라인 요건과 잘 일치합니다.
D5-P5336은 AI 데이터 파이프라인의 수집 및 보관 단계에서 맞춤형 혜택을 통해 다음의 고유한 과제를 해결합니다.
대용량 SSD는 이러한 단계를 최적화함으로써 AI 데이터 파이프라인의 전반적인 효율성을 향상시켜 데이터 액세스 속도를 높이고 운영 비용을 절감하며 향후 스토리지 성장에 대비한 확장성을 지원합니다.
AI가 데이터 스토리지의 경계를 계속 확장함에 따라 대용량 SSD가 장착된 NAS 시스템은 AI 데이터세트의 규모, 속도, 다양성을 관리하는 필수 요소가 되고 있습니다. 122.88TB Solidigm D5-P5336 SSD는 스토리지 기술의 도약으로 NAS 배포 시 탁월한 용량, 내구성, 효율성을 자랑합니다.
Solidigm D5-P5336은 AI 데이터 파이프라인의 데이터 집약적 단계를 해결함으로써 조직이 데이터의 잠재력을 최대한 활용하여 더 많은 데이터뿐만 아니라 더 다양한 데이터로 모델 성능 개선을 추진할 수 있도록 지원합니다. AI 워크로드의 진화에 따라 NAS와 대용량 SSD의 조합은 확장 가능하고 효율적인 고성능 데이터 인프라의 초석이 될 것입니다.
자세한 내용은 Solidigm D5-P5336 122.88TB SSD 제품 개요에서 확인하세요.
Dave Sierra는 Solidigm의 제품 마케팅 분석가로, 오늘날 데이터 센터가 직면한 인프라의 효율성 문제를 해결하는 데 집중하고 있습니다.
1 출처 – Epoch.AI, https://epoch.ai/data/notable-ai-models#Documentation
2 평균 입력 속도 60wpm, 평균 토큰 크기를 5자로 가정
3 출처: Digital Realty, 글로벌 데이터 인사이트 설문조사, 2024년 8월
4 25Mbps 및 H.265/HEVC 압축에서 4k 영상 비트 전송률을 기준으로 게임당 파일 크기를 30GB로 가정. 평균 NFL 경기 시간 3시간 및 시즌당 경기 수 272회 기준.
5 출처 – Solidigm. 일부 결과는 내부 Solidigm 분석이나 아키텍처 시뮬레이션 또는 모델링을 사용하여 추정 또는 시뮬레이션한 것으로, 정보 제공 목적으로만 제공됩니다. 시스템 하드웨어, 소프트웨어 또는 구성에 따른 차이점이 실제 성능에 영향을 미칠 수 있습니다.
6 출처 - Solidigm. 스토리지에 사용할 수 있는 36U가 있는 42U NAS 랙, 각각 24x 122.88TB SSD가 있는 18x 2U 스토리지 서버 기준.
상품성, 특정 목적에의 적합성 및 비침해성에 대한 묵시적 보증이나 이행 과정, 거래 과정 또는 사용에서 발생하는 모든 보증을 비롯하여 본 문서에서는 어떠한 명시적 또는 묵시적 보증도 제공하지 않습니다.
이 문서에 기술된 제품은 '정오표'로 알려진 오류나 설계 결함이 있을 수 있으며, 이로 인해 제품이 게시된 사양과 다를 수 있습니다. 요청 시 정오표를 제공해 드립니다.
Solidigm은 타사 데이터를 통제하거나 감사하지 않습니다. 정확성을 평가하려면 기타 소스를 참고해야 합니다.
제품을 주문하기 전에 Solidigm 담당자 또는 판매처에 문의하여 최신 사양을 확인하십시오.
SOLIDIGM 및 Solidigm “S” 로고는 미국, 중국, 일본, 싱가포르, 유럽연합, 영국, 멕시코 및 기타 국가에 등록된 SK hynix NAND Product Solutions Corp.(d/b/a Solidigm)의 상표입니다.