AI는 혁신을 주도할 수 있는 기술로 주목받으며, 많은 기업들에게 최우선 과제가 되었습니다. 하지만, AI 데이터 센터를 구축하는 데에는 상당한 어려움이 따릅니다. AI는 컴퓨팅 및 데이터 집약적이며 대규모 인프라가 필요하고 그에 따라 막대한 전력 소모가 수반됩니다. 새로운 AI 데이터 센터를 지원하는 데 필요한 막대한 양의 전력은 비용과 지속 가능성 문제를 가중시키고, 단일 데이터 센터에 배포할 수 있는 총 인프라를 제한하는 주요 과제입니다.
AI를 둘러싼 에너지 관련 문제는 대부분 광범위한 GPU 사용에 초점이 맞춰져 있지만, 대규모 AI 학습 데이터세트와 모델 체크포인트를 저장하는 데 필요한 데이터 스토리지도 데이터 센터 전력 효율에 상당한 영향을 미칩니다. 이 연구에서는 AI 데이터 센터에서 네트워크 연결형 데이터 스토리지의 역할에 대해 중점적으로 다루고 다양한 스토리지 미디어가 전력 효율성에 어떤 영향을 미칠 수 있는지 평가합니다.
이 연구는 100메가와트 규모의 신규 AI 데이터 센터를 모델링하고, 다양한 스토리지 장치가 총 전력 효율에 미치는 영향을 평가하는 데 중점을 두었으며, 구체적으로는 QLC SSD, TLC SSD, 하이브리드 HDD 기반 구성이 미치는 영향을 평가했습니다.
최근 AI 분야가 발전하면서 이 기술에 대한 관심이 다시 집중되고 있습니다. AI 응용 기술은 거의 모든 산업 분야에서 핵심 우선순위로 부상했으며, 혁신을 이끌 수 있는 막대한 잠재력을 지니고 있습니다.
혁신 잠재력은 크지만, 이 새로운 AI 응용 기술을 실제 구축하고 배포하는 데에는 상당한 어려움이 따릅니다. AI 배포는 상당한 컴퓨팅 리소스와 방대한 데이터 용량을 필요로 하는 자원 집약적인 과정입니다. 현대 AI 모델은 학습 속도를 높이기 위해 다수의 GPU를 활용한 병렬 컴퓨팅에 의존합니다. 데이터 스토리지 요구 사항을 고려할 때 두 가지 주요 과제가 있습니다. 첫째, AI 모델은 높은 수준의 정확도를 달성하기 위해 방대한 양의 학습 데이터를 필요로 합니다. 또한 학습 과정 전반에 걸쳐 모델 상태를 저장하기 위해 지속적으로 체크포인트 저장을 필요로 합니다. 이로 인해 AI 데이터 센터에 필요한 스토리지 용량이 매우 높아집니다.
높은 컴퓨팅 및 스토리지 요구 사항으로 인해 AI 데이터 센터를 구축할 때 또 다른 주요 과제가 발생하는데, 그것은 바로 전력입니다. AI 인프라의 높은 전력 수요는 AI 데이터 센터를 구축하는 조직의 핵심 과제로 떠올랐습니다. AI 데이터 센터의 에너지 소비는 막대한 비용을 초래할 수 있으며, 지속 가능성 목표를 저해하고 궁극적으로 AI 인프라 구축을 제약하는 요인이 될 수 있습니다. 일부 대규모 하이퍼 스케일러의 경우 전력 수요가 극단적으로 증가하면서 AI 데이터 센터에 전력을 공급하기 위해 소형 원자로(SMR)에 대한 투자를 시작했습니다. 대다수의 데이터 센터가 전용 원자로 도입은 고려하기 어려운 상황이지만, AI 관련 전력 문제는 여전히 남아 있습니다. AI 데이터 센터를 구축하는 조직은 AI의 전력 수요를 정확히 이해하고, 보다 효율적인 데이터 센터를 구축하기 위한 다양한 방안을 숙지해야 합니다.
데이터 센터 내 전력은 크게 컴퓨팅, 네트워크, 스토리지, 비IT 인프라 관련 전력(주로 냉각)으로 분류할 수 있습니다. AI 전력 수요를 둘러싼 대부분의 문제는 대규모 GPU 사용을 필요로 하는 컴퓨팅에 기인합니다. GPU가 많은 에너지를 소비하는 것은 사실이지만 AI 학습에서 GPU의 역할은 대체할 수 없습니다. AI 모델 학습은 컴퓨팅 집약적이고 시간이 많이 소요되는 과정으로, 제한된 컴퓨팅 리소스만으로는 현실적인 시간 내에 수행하기 어려운 경우가 많습니다. AI 데이터 센터 내 네트워크는 전력 소비 비중이 가장 크지는 않을 뿐더러 컴퓨팅 및 스토리지 규모와 직접적인 관련이 있기 때문에 전력 효율을 극적으로 개선하기도 어렵습니다. 비IT 인프라 관련 전력에서는 냉각이 전력 효율 개선이 가능한 핵심 영역으로 액체 냉각으로 높은 효율을 달성할 수 있습니다. 하지만, 액체 냉각의 경우 완전히 새로운 인프라가 필요하고 상당한 비용이 추가될 수 있다는 점이 문제입니다. 이에 따라 데이터 스토리지는 비교적 간단한 방식으로 전력 효율을 최적화할 수 있는 핵심 영역으로 부각됩니다.
GPU 컴퓨팅이 AI 데이터 센터의 에너지 소비의 대부분을 차지하지만 데이터 스토리지도 중요한 역할을 합니다. 일반적으로 학습을 가속화하려면 가장 강력한 GPU가 필요하지만, 스토리지 측면에서는 조직이 더 유연한 선택을 할 수 있습니다. 스토리지 장치는 시간이 흐르면서 주로 HDD 기반 방식에서, 저장 밀도가 점차 향상된 솔리드 스테이트 기술(SSD)로 진화해 왔습니다. HDD 기반 방식은 대용량 데이터를 경제적으로 저장할 수 있는 방식으로 널리 채택되며, 회전식 디스크의 느린 성능을 보완하기 위해 SSD 캐싱 계층을 함께 사용합니다. 반면, 최신 올플래시 방식은 일반적으로 TLC(Tri-Level Cell) 또는 QLC(Quad-Level Cell) 장치를 활용하며, 각각 고유한 강점과 단점을 가지고 있습니다. TLC 장치는 일반적으로 성능은 더 높지만, 저장 밀도는 상대적으로 낮습니다. 반면, QLC 장치는 저장 밀도가 매우 높으며, 읽기 성능은 TLC와 유사하지만 쓰기 성능은 다소 낮은 편입니다.
QLC의 등장으로 대용량 스토리지에는 비용이 저렴한 HDD를 선택하고, 높은 성능이 요구되는 작업에는 TLC SSD를 선택했던 기존의 스토리지 장치 선택에 대한 일반적인 구도가 변화했습니다. QLC 드라이브의 높은 밀도는 HDD의 가격 경쟁력을 위협하는 동시에 플래시 수준의 성능을 제공하여, 많은 기존의 HDD 기반 환경에서 매력적인 대안으로 부상하고 있습니다. 에너지 관련 문제가 부각되면서, QLC는 HDD를 대체할 수 있는 스토리지로 더욱 주목받고 있습니다. 일반적으로 SSD는 HDD보다 에너지 효율성이 높은 것으로 평가됩니다. 한편, QLC는 올플래시 환경, 특히 성능 경쟁이 치열한 읽기 위주의 워크로드에서 TLC 장치의 지배적인 위치에 도전하고 있습니다.
AI용 데이터 스토리지를 고려할 때 장치는 성능, 용량, 에너지 효율성의 균형을 유지해야 합니다. AI 모델 학습은 데이터가 많을수록 더 정확한 모델을 구축할 수 있으며, 대규모 모델은 지속적으로 체크포인트를 저장하고 유지해야 하기 때문에 일반적으로 페타바이트(PB)급 규모의 저장 용량을 필요로 합니다. 하지만 스토리지가 GPU 서버로 데이터를 효율적으로 읽기 위해서는 엄격한 성능 요구 사항도 충족해야 하므로 용량만으로는 충분하지 않습니다. 전력 효율을 위해 스토리지를 최적화해야 한다는 요구 사항까지 겹치면 작업은 더욱 복잡해집니다. AI의 스토리지 요구 사항을 고려할 때, QLC의 고밀도, 플래시 성능 및 에너지 효율성은 AI 데이터 센터에 매력적인 선택이 될 수 있습니다.
AI에 대한 관심이 높아지는 한편, AI 인프라의 전력 소비에 대한 우려 또한 커지고 있는 가운데 이 연구에서는 AI 데이터 센터의 전력 효율성에 미치는 스토리지 장치의 영향을 평가하였습니다. 이를 위해 Signal65와 Solidigm은 100메가와트급 AI 데이터 센터의 실제 구현 환경을 모델링하여 다양한 스토리지 장치가 전체 전력 효율에 미치는 영향을 측정했습니다. 스토리지 장치는 IT 의사 결정권자가 전력 효율을 최적화할 수 있는 실질적인 옵션을 제공하기 때문에 변수로 선택했습니다. 모델링에는 하이브리드 HDD 솔루션, 전용 TLC SSD 솔루션, 전용 QLC SSD 솔루션 이렇게 서로 다른 세 가지 스토리지 시스템 구성을 사용했습니다. 평가를 위해 선택한 장치에는 Solidigm의 대용량 QLC SSD, 경쟁사의 TLC SSD 및 Solidigm TLC SSD 캐싱 계층과 결합된 경쟁사의 HDD 등을 사용했습니다.
스토리지 장치의 영향을 분리하여 평가하기 위해 나머지 변수는 각 환경에서 일관되게 유지했습니다. 각 스토리지 구성은 다음 매개변수를 중심으로 모델링했습니다.
세 가지 스토리지 환경을 현실적이고 공정하게 평가하기 위해, 모델링 전 과정에서 일관되게 적용될 주요 가정을 설정하고 이를 유지해야 합니다. 이러한 가정은 모델링의 기준 틀을 형성하며, 외부 연구 및 업계의 전문 지식을 기반으로 도출되었습니다. 물론, 이러한 가정이 실제 모든 배포에서 적용되는 것은 아니며, 결과가 다를 수 있습니다. 모델링 과정에서 사용된 주요 가정은 다음과 같습니다.
이 평가는 일반적으로 추론보다 더 많은 자원을 요구하는 AI 모델 학습에 중점을 두었습니다. AI 학습 워크로드의 특성을 정확히 반영하기 위해, 해당 워크로드는 읽기 90%, 쓰기 10%의 비율로 구성된 것으로 가정했습니다. 읽기 비율이 높은 이유는 학습 데이터를 GPU 서버로 지속적으로 로딩해야 하는 요구 사항을 반영한 것이며, 나머지 10%의 쓰기 비율은 모델 체크포인트 요구 사항을 반영한 것입니다.
평가된 모든 스토리지 장치의 전력 소비 지표는 공급업체 사양에서 직접 가져온 것입니다. 특정 워크로드의 읽기 및 쓰기 작업 간 전력 소비 균형을 맞추기 위해 가중 평균을 계산했습니다. 경쟁사 TLC SSD 및 HDD의 경우, 공급업체에서 읽기 및 쓰기 전력 소비에 대한 별도의 지표를 제공하지 않기 때문에 단일 유효 전력 지표를 사용했습니다. 다음은 각 장치별로 사용된 전력 소비량 수치입니다.
활성 및 유휴 시간의 비율을 보다 정확히 반영하기 위해, 각 드라이브의 성능과 밀도를 기준으로 듀티 사이클(duty cycle)을 산출했습니다. HDD가 유휴 상태에서 활성 상태로 전환되는 데 걸리는 시간과 워크로드의 높은 처리량 요구 사항을 고려하여 HDD 및 관련 SSD 캐싱 계층이 항상 100% 활성 상태인 것으로 가정했습니다. 그런 다음 각 드라이브의 성능 및 용량 지표를 사용하여 그런 다음 각 드라이브의 성능 및 용량 메트릭을 사용하여 경쟁사 QLC 및 TLC 드라이브의 듀티 사이클을 산출했습니다. 전력 지표 계산과 마찬가지로, 성능 또한 읽기 중심의 AI 워크로드 특성을 반영하기 위해 각 드라이브의 읽기 및 쓰기 처리량을 가중 평균하여 계산했습니다.
각 드라이브 유형과 관련된 총 전력 요구량은 계산된 듀티 사이클을 활용하여 드라이브의 활성 및 유휴 전력 소비량의 가중 평균을 취하여 계산했습니다. 이 값은 주어진 유효 용량을 지원하기 위해 스토리지 서버 및 JBOF 또는 JBOD에 필요한 전체 장치 수에 곱하여 계산했습니다. 또한 각 스토리지 관리 서버는 소프트웨어 정의 스토리지를 실행하는 데 필요한 컴퓨팅 성능을 고려하여 560W를 소비하는 것으로 가정했습니다.
AI 데이터 센터를 정확하게 모델링하는 데 있어 가장 중요한 과제는 필요한 스토리지 용량을 결정하는 것입니다. AI가 방대한 데이터를 요구한다는 점은 널리 알려져 있으나, AI 응용 분야별로 스토리지 요구 사항에는 여전히 상당한 편차가 존재합니다. 이 연구에서는 요구되는 스토리지 용량이 전력 관련 주요 지표에 직접적인 영향을 미치므로, 단일 용량 지점을 기준으로 모델을 구축하면 오해의 소지가 있을 수 있습니다.
다양한 AI 환경에 폭넓게 적용할 수 있는 모델을 구축하기 위해 가능한 다양한 사용 사례를 대표하는 세 가지 구분된 용량 지점을 선택했습니다. 이 용량 지점은 기존 AI 데이터 센터에 대한 광범위한 연구와 NVIDIA DGX H100 배포를 위한 여러 참조 아키텍처 평가를 바탕으로 도출했습니다. 다음은 선택한 세 가지 용량 지점에 대한 세부 사항과 이를 적용할 수 있는 환경에 대해 간략하게 설명합니다.
일반적으로 AI에는 PB 규모의 데이터 스토리지가 필요한 경우가 많으며, 랙당 약 1PB 수준의 용량이 다양한 참고 문헌에서 초기 기준점으로 자주 언급되며 이후 확장 가능한 구조로 활용됩니다. 다양한 요인에 따라 일부 AI 환경은 이와 같은 저용량 범위에 적합할 수 있습니다. 예를 들어, 자연어 모델은 주로 텍스트를 기반으로 하기 때문에 일반적으로 비교적 적은 용량의 학습 데이터가 필요합니다. 하지만, 모델 체크포인트는 여전히 상당한 스토리지 공간이 필요하며, 이는 모델의 크기와 필요한 총 학습량에 따라 달라집니다. 더 적은 매개변수로 더 작은 모델을 훈련하면 용량 요구 사항을 낮출 수 있으며, 전이 학습이나 미세 조정과 같은 프로세스를 통해 사전 훈련된 기본 모델을 활용하여 전체 훈련 요구 사항을 줄일 수도 있습니다.
이 용량 지점은 “저용량”으로 정의된 용량보다 더 큰 스토리지 용량을 수용하지만, 일부 초대형 AI 배포에 비해서는 여전히 낮은 수준입니다. AI는 학습 데이터 세트와 체크포인트 요구량이 증가하면서 스토리지 용량 요구 사항도 증가합니다. 더 정확한 모델을 얻기 위해 더 많은 데이터를 수집하거나 멀티모달 모델과 같이 더 큰 데이터 유형을 활용하면 학습 데이터 세트도 그만큼 많아질 수 있습니다. 체크포인트 요구는 모델이 커질수록 각 체크포인트의 크기가 커지고, 학습 시간이 길어질수록 생성해야 하는 체크포인트 수도 많아지기 때문에 함께 증가합니다.
이 용량은 스토리지 요구가 매우 큰 AI 배포를 대표합니다. 랙당 10PB의 스토리지 용량은 상한선이 아니며, 이보다 훨씬 더 큰 용량을 요구하는 AI 환경도 존재할 수 있습니다. 자율 주행 차량이나 의료 영상 사용 사례와 같이 대량의 이미지 또는 비디오 데이터로 학습된 모델에는 대용량을 필요로 할 수 있습니다. 기본 모델과 같이 매개변수 수가 많고 학습 시간이 긴 초대형 모델도 용량 요구 사항이 높아질 수 있습니다.
선정된 용량 지점들은 여러 참고 문헌을 기반으로 한 다양한 현실적인 스토리지 구축 사례를 대표하며 이를 통해 데이터 스토리지가 AI 전력 소비에 미치는 영향을 보다 깊이 있게 분석하고자 했습니다. 많은 AI 배포 환경이 이러한 특정 용량 지점을 벗어나거나 그 사이에 위치할 수 있음을 고려해야 합니다. 하지만 일반적으로 모델이 계속 커지고 더 많은 학습 데이터가 수집됨에 따라 향후 AI에 대한 용량 요구 사항은 증가할 가능성이 높습니다.
스토리지 장치의 전력 효율성을 평가할 때에는, 장치 간의 상대적인 효율성뿐만 아니라 해당 장치가 데이터 센터 전체에 미치는 영향까지 함께 분석하는 것이 중요합니다. 모델링된 각 스토리지 장치의 영향을 종합적으로 파악하기 위해 여러 계산을 통해 전력 효율 결과를 평가했습니다.
먼저, 선택된 용량 지점에서 단일 GPU 서버 랙을 지원하는 데 필요한 네트워크 연결 스토리지의 전력 소비만을 분리하여 평가했습니다. 컴퓨팅에 따른 전력 소비와 함께 스토리지 전력 효율의 중요성을 파악하기 위해 컴퓨팅과 스토리지의 총 전력 소비량도 계산했습니다. 이 수치는 용량 요구를 충족하는 데 필요한 전체 스토리지와 단일 GPU 서버 랙의 전력 소비를 합산하여 산출했습니다. 마지막으로, 전체 AI 데이터 센터에서 스토리지가 미치는 보다 광범위한 영향을 파악하기 위해, 100MW 규모의 데이터 센터에서 수용 가능한 전체 인프라를 측정하고, 이 중 스토리지가 차지하는 전력 소비 비율도 함께 산출했습니다.
데이터 센터 내 다양한 스토리지 장치의 전력 효율성 영향을 평가하기 위해 첫 단계로 각 구성에서 스토리지가 직접 소비하는 총 전력을 파악했습니다. 이는 ‘고용량’, ‘중간 용량’, ‘저용량’으로 정의된 각 용량 지점에서, GPU 서버가 완전히 탑재된 단일 랙을 지원하기 위해 필요한 네트워크 연결 스토리지의 전력 소비만을 분리하여 측정했습니다. 그림 1에서 볼 수 있듯이 평가 대상인 세 가지 장치에 대한 스토리지 구성에 대해 전력 계산을 모델링했습니다.
세 가지 스토리지 구성의 전력 소비량을 비교했을 때, 이 모델은 각 용량 지점에서 QLC SSD가 TLC SSD와 HDD 구성 모두보다 더 효율적으로 나타났습니다. 또한, 용량이 커질수록 QLC의 전력 효율성 이점이 두드러졌습니다. 1PB에서 10PB로 용량이 증가함에 따라 QLC는 TLC 대비 3.3%에서 최대 19.5%까지 전력 효율성에서 우수했습니다. 하이브리드 HDD 환경과 비교하면 저용량 수준에서는 32.9%에서 고용량 수준에서는 79.5%로 이점이 훨씬 더 컸습니다.
스토리지를 직접 평가해 보면, QLC 장치가 전력 효율 측면에서 TLC SSD나 HDD보다 훨씬 우수하다는 것을 알 수 있습니다. 모델링한 세 가지 장치의 유효 전력 소비량은 다른데, 개별 드라이브 기준으로는 HDD의 소비 전력이 가장 낮지만, 고밀도 QLC는 적은 수의 드라이브로 동일한 총 용량을 제공하므로 전체 전력 소비를 효과적으로 줄일 수 있습니다. 장치 밀도의 영향은 특히 SSD 유형보다 낮은 밀도를 제공하는 HDD에 비해 두드러집니다.
QLC SSD와 TLC SSD 간의 장치 밀도 차이 및 그로 인한 전력 소비 영향은 환경의 용량 요구가 증가할수록 더욱 뚜렷하게 나타납니다. 저용량 지점에서는 QLC가 TLC 대비 3.3% 수준의 비교적 완만한 전력 효율성 우위를 보였으나, 중간 및 고용량 지점에서는 그 격차가 각각 12.7%와 19.5%로 증가했습니다. 이는 QLC의 전력 효율성 우위를 보여줄 뿐만 아니라, 고밀도 드라이브가 빅데이터 환경에서 특히 중요한 이유를 보여줍니다.
데이터 센터 내에서 스토리지의 전력 소비를 별도로 분석하면 장치 유형별 전력 효율성을 이해하는 데 유용하지만, 이는 데이터 센터 전체 운영 측면을 함께 고려해야 합니다. AI 데이터 센터의 경우 일반적으로 GPU 서버 사용으로 인해 컴퓨팅이 전력 소비에 많은 영향을 미칩니다. 스토리지 장치가 AI 인프라의 전체 전력 효율성에 미치는 영향을 알아보기 위해 GPU 서버와 관련 스토리지의 전력 소비량을 계산했습니다. 단일 GPU 서버 랙을 기준으로 계산했으며, 그림 2에서 볼 수 있듯이 장치 유형과 요구 용량을 변경하여 비교 분석했습니다.
스토리지만 비교했을 때와 마찬가지로 계산 결과 QLC SSD이 전력 효율성 면에서 우위를 보여주었습니다. GPU 서버의 전력 소비량은 세 환경 모두에서 일정하며, QLC가 더 전력 효율적인 스토리지를 제공하는 것으로 나타났는데, 이는 예상할 수 있는 결과입니다. 하지만 이 평가에서 전력 효율이 높은 스토리지를 사용하면 대부분의 전력이 컴퓨팅 리소스에 의해 소비되더라도 AI 인프라 전반의 전력 효율성 향상에 기여함을 알 수 있습니다.
저용량 수준에서는 QLC 환경의 전력 효율성 우위가 비교적 미미하며, TLC 환경 대비 0.16%, HDD 환경 대비 2.32%의 이점을 보였습니다. 하지만 용량이 증가하면 스토리지가 전체 전력 효율에 미치는 영향이 증가합니다. 중간 용량 기준, QLC 환경은 TLC 환경보다 1% 더 효율적이고 HDD 환경보다 10% 더 효율적인 것으로 계산되었습니다. 고용량 지점에서 QLC의 전력 효율 우위는 TLC에 비해 1.6%, HDD에 비해 20.8%로 증가합니다.
이러한 추세는 AI 스토리지 요구 사항이 계속 증가함에 따라 고용량 QLC 스토리지 장치의 전력 효율성이 점점 더 영향력을 발휘함을 보여줍니다. 이러한 전력 효율성 우위를 활용해 얼마나 많은 추가 AI 인프라를 배포할 수 있는지 평가하면 절감 효과의 실질적 영향을 보다 구체적으로 파악할 수 있습니다.
이 연구의 핵심 목표는 고정된 전력 용량 내에서 데이터 센터가 수용할 수 있는 AI 인프라 규모에 어떤 영향을 미치는지를 분석하는 것이었습니다. 특히 이 연구에서는 100MW 데이터 센터 내에서 지원할 수 있는 GPU 서버 랙의 양을 평가했습니다. 모델에 추가되는 각 랙에는 필요한 스토리지 인프라가 함께 포함되었으며, 비IT 인프라의 전력 사용량은 일정한 PUE 값 1.3을 가정하여 계산했습니다. 용량 및 드라이브 구성에 따른 GPU 랙 수는 그림 3에서 확인할 수 있습니다.
이 계산 결과는 다시 한 번 비슷한 추세를 보여 주며, 용량이 커질수록 QLC가 더 유리한 것으로 나타났습니다. 이 경우, 고밀도 QLC SSD를 통해 얻은 전력 효율성의 우위는 데이터 센터 내에 구축할 수 있는 전체 AI 인프라의 수용량으로 정량화할 수 있습니다. 고용량 수준에서 QLC SSD의 전력 효율성 향상으로 TLC SSD에 비해 26개의 GPU 서버 랙을 추가할 수 있으며, HDD 기반 배포와 비교했을 때 335개의 GPU 서버 랙을 추가로 구축할 수 있습니다.
AI 데이터 센터의 경우, 이러한 추가 GPU 컴퓨팅 지원은 매우 큰 영향을 미칠 수 있습니다. GPU는 AI 혁신의 핵심 원동력이지만 AI 워크로드의 대규모 에너지 소비로 인해 배포 가능한 전체 인프라가 제한될 수 있습니다. 이 평가 결과를 통해 스토리지 미디어의 유형이 데이터 센터 내에서 지원 가능한 AI 인프라의 총 규모에 영향을 미칠 수 있음을 보여줍니다.
마지막으로, 데이터 스토리지가 전체 데이터 센터 전력 소비에서 차지하는 비율을 평가함으로써 스토리지 전력의 중요성을 알 수 있습니다.
QLC SSD를 사용할 때 데이터 스토리지는 전체 데이터 센터 전력의 3.72%에서 5.21%를 차지하는 것으로 나타났습니다. 이에 비해 TLC SSD로 구성된 스토리지는 데이터 센터 전력의 3.84%에서 6.37%, HDD 구성은 데이터 센터 전력의 5%에서 20.1%를 차지하는 것으로 나타났습니다. 이를 통해 데이터 스토리지가 전력 소비의 주요 원인은 아니지만, 데이터 스토리지의 총 소비량이 무시할 수 있는 수준이 아님을 알 수 있습니다. 100MW와 같이 총 전력 공급량이 큰 AI 데이터 센터에서는 전체 전력의 일부에 불과하더라도, 그 소비량은 메가와트 범위로 무시할 수 없는 수준입니다. 데이터 센터 내의 많은 요소를 변경하여 전력 소비를 크게 줄일 수는 없지만 이 연구에서는 데이터, 스토리지의 총 전력 소비에 실질적인 영향을 미칠 수 있음을 보여줍니다.
이 연구 결과를 통해 AI 데이터 센터에서 스토리지가 얼마나 중요한 역할을 하는지 알 수 있습니다. 데이터 스토리지는 AI 데이터 센터 전력 소비의 상당 부분을 차지하며 스토리지 용량이 증가함에 따라 그 영향도 점점 커집니다. 컴퓨팅 리소스 및 냉각 요구 사항과 같이 데이터 센터 전력 소비의 상당 부분을 차지하는 다른 여러 구성 요소가 있지만 데이터 스토리지는 전력 효율성을 최적화할 수 있는 실질적인 방법을 제시합니다. QLC 기술은 스토리지 장치의 생태계를 획기적으로 변화시켰으며, AI 데이터 스토리지를 위한 이상적인 기반으로 주목받고 있습니다.
QLC SSD는 TLC SSD보다 높은 밀도, HDD보다 높은 성능과 밀도를 제공하며, 이 연구에서 볼 수 있듯이 경쟁 기술보다 전력 효율성이 더 높습니다. 이러한 특성은 고성능과 대용량을 동시에 요구하면서도, 전체 전력 소비의 제약을 점점 더 크게 받는 AI 데이터 센터 환경에 특히 더 적합합니다.
이번 연구를 통해, 고용량을 요구하는 AI 환경에서 고밀도 QLC 드라이브의 실질적인 가치가 확인되었습니다. HDD나 TLC SSD를 사용해 이러한 용량 수준을 달성하려면 훨씬 더 많은 장치가 필요하므로, 컴퓨팅에 활용 가능한 데이터 센터 내 공간이 줄어들고 스토리지 관련 전력 소비는 증가하게 됩니다. 이는 결과적으로 추가적인 AI 컴퓨팅 리소스 배포를 제한하는 요인이 될 수 있습니다. 이 연구에서 사용된 다양한 용량 지점에서 볼 수 있듯이 용량 요구 사항이 증가함에 따라 이러한 역학 관계는 점점 더 큰 영향을 미칩니다.
AI 기술에 대한 관심이 다시 높아지면서 전반적인 데이터 요구 사항이 증가할 것으로 보이며, 이에 따라 고용량 지점에서 전력 효율적인 스토리지의 필요성이 더욱 강조되고 있습니다. 향후 AI의 용량 수요는 더 대규모의 학습 데이터 세트와 점점 더 커지는 모델 규모에 의해 더욱 가속화될 것으로 예상됩니다. 대용량에 대한 수요가 증가함에 따라 고밀도 QLC 장치는 효율적인 데이터 저장을 위한 최적의 선택이 되고 있습니다.
이 연구에서 100MW AI 데이터센터의 전력 요구 사항을 모델링함으로써 Solidigm 고밀도 QLC SSD가 경쟁사 TLC SSD 및 HDD에 비해 상당한 전력 효율성 이점을 제공할 수 있음이 확인되었습니다. 데이터 스토리지의 전력 소비만을 별도로 측정했을 때 Solidigm의 QLC SSD는 TLC SSD보다 최대 19.5%, HDD보다 최대 79.5% 더 효율이 높은 것으로 나타났습니다. 또한 Solidigm QLC SSD를 활용하여 확보한 전력 효율성을 통해 데이터 센터에 더 많은 인프라를 구축할 수 있다는 점도 확인되었습니다. 100MW 데이터 센터 내 인프라를 평가할 때, QLC 장치를 사용하면 TLC SSD에 비해 최대 1.6%, HDD에 비해 최대 26.3% 더 많은 AI 인프라를 확보할 수 있었습니다. 이러한 결과는 고밀도 QLC 스토리지가 조직이 데이터 센터 전력 한계를 극복하고 더 큰 규모의 AI 컴퓨팅 클러스터, 더 빠른 결과, AI 분야의 전반적인 혁신을 실현하는 데 도움이 될 수 있음을 보여줍니다.
이 연구에서 도출된 결과 외에도, Solidigm의 고밀도 QLC SSD를 활용한 에너지 효율상의 이점은 AI의 증가하는 에너지 과제와 관련하여 여러 주요 기술 업체들로부터도 인정받고 있습니다. Arm의 Chloe Ma 부사장은 "AI 모델이 더욱 정교해짐에 따라 AI의 잠재력을 충분히 활용하려면 증가하는 에너지 수요를 해결해야 하며, AI 워크로드에 최적화된 인프라를 구축하기 위해서는 컴퓨팅, 스토리지, 네트워크를 아우르는 통합적 접근이 핵심이며, 이러한 전략을 클라우드부터 엣지까지 실현하는 데 있어 범용 Arm 컴퓨팅 플랫폼이 중요한 역할을 하고 있다"고 설명합니다.
Solidigm의 122TB 고용량 스토리지 솔루션은 Arm의 고성능 및 전력 효율 기술을 바탕으로, AI 환경에서의 전력 문제를 해결하고, 이를 통해 보다 효율적이고 확장 가능한 데이터 센터 설계를 가능하게 할 것입니다.
AI가 계속 진화함에 따라 데이터 스토리지는 계속해서 중요한 역할을 할 것입니다. Solidigm 고밀도 QLC 장치는 AI 데이터 센터에 최적화된 선택지로 고성능과 대용량을 동시에 만족시키는 올 플래시 스토리지를 제공하며, 전력 효율성까지 극대화합니다. 이 연구 결과는 AI 전력 소비에서 데이터 스토리지가 차지하는 중요한 역할을 강조하며, QLC 장치가 조직의 전력 효율성을 제고하고 AI 목표를 달성하는 데 어떻게 기여할 수 있는지를 제시합니다.
다음 차트는 전체 연구 결과입니다.
표 1은 GPU 서버의 단일 랙에 필요한 스토리지 인프라의 전력 소비량입니다.
Solidigm QLC | TLC | 이점 | 하이브리드 HDD | 이점 | |
---|---|---|---|---|---|
저용량(1PB) | 2,258W | 2,335W | 3.30% | 3,368W | 32.97% |
중간 용량(5PB) | 2,690W | 3,080W | 12.65% | 8,179W | 67% |
고용량(10PB) | 3,230W | 4,011W | 19.46% | 15,749W | 79.49% |
표 1. 총 전력 – 스토리지만
표 2는 단일 GPU 서버 랙과 관련 스토리지의 총 전력 소비량입니다.
Solidigm QLC | TLC | 이점 | 하이브리드 HDD | 이점 | |
---|---|---|---|---|---|
저용량(1PB) | 46,706W | 46,783W | 0.16% | 47,816W | 2.32% |
중간 용량(5PB) | 47,138W | 47,528W | 1% | 52,627W | 10% |
고용량(10PB) | 47,678W | 48,459W | 1.61% | 60,197W | 20.80% |
표 2. 총 전력: 컴퓨팅 + 스토리지
표 3은 100MW 데이터 센터에서 지원할 수 있는 GPU 서버 랙 및 관련 스토리지의 총 수입니다.
Solidigm QLC | TLC | 이점 | 하이브리드 HDD | 이점 | |
---|---|---|---|---|---|
저용량(1PB) | 1,647 | 1,644 | 0.17% | 1,609 | 2.38% |
중간 용량(5PB) | 1,632 | 1,618 | 0% | 1,462 | 11.64% |
고용량(10PB) | 1,613 | 1,587 | 1.64% | 1,278 | 26.26% |
표 3. 100MW 데이터 센터에서 지원되는 AI 인프라
표 4는 측정된 각 구성에 대해 100MW 데이터 센터에서 데이터 스토리지가 차지하는 총 전력 비율입니다.
Solidigm QLC | TLC | 하이브리드 HDD | |
---|---|---|---|
저용량(1PB) | 3.72% | 3.84% | 5% |
중간 용량(5PB) | 4.39% | 4.98% | 11.96% |
고용량(10PB) | 5.21% | 6.37% | 20.12% |
표 4. 전력 소비 비율
다음은 모델링된 각 장치의 듀티 사이클을 계산한 공식입니다.
SSD 듀티 사이클 = HDD 듀티 사이클 * (SSD 용량 / HDD 용량) *(HDD 성능 / SSD 성능)
HDD의 듀티 사이클을 100%로 가정한 경우
표 5는 이 연구에 사용된 장치에 대한 정보입니다.
Solidigm QLC SSD | TLC SSD | HDD | |
---|---|---|---|
용량 | 122.88TB | 61.44TB | 24TB |
읽기 성능 | 7,462MB/s | 12,000MB/s | 285MB/s |
쓰기 성능 | 3,250MB/s | 5,000MB/s | 285MB/s |
유효 읽기 전력 | 13.44W | 20W* | 8.2W* |
활성 쓰기 전력 | 22.08W | 20W* | 8.2W* |
대기 전력 | 5W | 5W | 6.5 |
표 5. 장치 사양
*TLC SSD 및 HDD 전력 지표는 읽기 및 쓰기별로 세분화되지 않았습니다. 장치 사양에 나와 있는 대로 두 값 모두에 읽기/쓰기 혼합 전력 지표를 사용했습니다.
Mitch Lewis는 컴퓨터 과학과 데이터 과학에 대한 폭넓은 배경 지식을 갖춘 Signal65의 성능 분석가입니다. 데이터 스토리지, 데이터 관리 및 AI 기술에 대한 상당한 기술 관련 지식을 보유하고 있습니다. Signal65에 합류하기 전에는 Evaluator Group에서 정보 관리 업계 전문가로 근무했으며, 이전에는 Oracle에서 클라우드 구현을 이끌었습니다.
Signal65는 디지털 혁신과 시장을 뒤흔드는 기술 및 트렌드에 중점을 둔 독립적인 연구, 분석, 자문 기업입니다. 저희 분석가, 연구원, 자문가들은 매일 전 세계의 비즈니스 리더들이 산업 내 거대한 변화 흐름을 예측하고, 시장에서 경쟁 우위를 확보하거나 유지할 수 있도록 파괴적 혁신을 활용하는 데 도움을 주고 있습니다.
[1] SSD 환경에서는 2배 복제를, HDD 환경에서는 3배 복제를 선택했습니다. Ceph의 가이드라인에 따라 선택된 이중화 아키텍처. (출처: Red Hat)