AI에는 한계가 있습니다. AI 컴퓨팅에 대한 끊임없는 수요가 에너지 그리드를 한계까지 압박하고 있습니다. 5년 전, 쓰리마일섬 원자력 발전소의 마지막 잔여 반응로가 폐쇄되었을 때, 이 반응로가 단 하나의 데이터 센터에 전력을 공급하기 위해 다시 살아날 것이라고 예측한 사람은 아무도 없었습니다. 그러나 이는 바로 Microsoft의 최근 전력 구매 계약을 통해 발생한 일이며, 극단적인 AI 에너지 문제를 안고 있는 것은 그들만이 아닙니다.
오늘날 데이터 센터 설계자들은 새로운 AI 애플리케이션을 도입할 때 전력과 공간 하나 하나가 얼마나 중요한지 잘 알고 있습니다. 기업들은 기존 하드웨어에서는 AI를 실행할 수 없으며, 저장 장치도 예외가 아닙니다. 에너지와 공간 면에서 더 효율적인 솔리드 스테이트 드라이브(SSD)를 선택하면 더 많은 AI 모델 훈련 및 추론을 위해 필요한 전력과 공간을 확보할 수 있습니다.
지난 10년간의 컴퓨팅 파워와 데이터의 극적인 증가를 이해하지 않고는 데이터 센터의 전력 효율성에 대한 논의가 이뤄질 수 없습니다. 2014년에는 냉각을 위해 프로세서당 평균 100W의 전력이 필요했습니다. 2024년에는 이 평균 필요 전력이 5배 이상 증가하여,1 현재 NVIDIA H100 SXM GPU는 700W의 냉각 전력이 필요하게 되었으며,2
그에 따라 평균 랙 전력 소요 역시 증가했습니다. 2014년의 랙 전력은 평균 약 4~5KW였으나, 2024년에는 10~14KW로 증가했으며,3 GPU 기반 컴퓨팅 랙의 경우 훨씬 더 많은 전력을 요구하고 있습니다. 최근 OCP 서밋 회의에서 Microsoft와 Google은 수백KW에서 1MW까지 확장 가능한 랙을 가지고 운용하고 있다고 했습니다.
만약 에너지를 확보할 수 있다면, 현재 우리가 할 수 있는 것보다 더 큰 클러스터를 구축할 수 있을 것입니다.
마크 저커버그, 메타4
게다가, GenAI 및 기타 AI 애플리케이션은 더 나은 모델을 제공하기 위해 점점 더 많은 데이터를 소모하고 있기 때문에, 데이터 볼륨이 대폭적으로 증가하고 있으며, 그 예로, 매달 30억~50억 개의 새로운 페이지가 커먼 크롤에 추가되고 있습니다.5 또한 일부 AI 모델 데이터 세트의 규모는 2년마다 두 배로 증가하기도 했습니다.6
GPU 인프라에 충분한 전력과 냉각 능력을 제공하는 어려움이 현재 헤드라인을 장식하고 있지만, 전력이 제한될 경우 작은 규모의 전력도 중요합니다. 컴퓨팅 외에 스토리지 역시 데이터 센터 에너지 사용에서 중요한 부분을 차지합니다.
예를 들어, 메타에서 발표된 데이터에 따르면, 레거시 하드 디스크 드라이브(HDD) 스토리지는 AI 추천 엔진 클러스터 전력의 35%를 소비합니다.7 마이크로소프트의 데이터에 따르면, 스토리지는 Azure 솔루션의 전체 운영 배출량 중 33%를 차지하며, 이는 에너지 소비와 관계가 있습니다.8 전력이 제한된 환경에서는, 스토리지에 사용되는 1와트 때문에 결국 컴퓨팅을 위한 1와트가 줄어드는 것입니다.
고용량 SSD로 설계된 데이터 스토리지를 사용하면 레거시 스토리지에 비해 더 적은 장치에 더 많은 데이터를 저장할 수 있습니다. 더 나아가, 모든 조건이 동일하다면, 드라이브 수가 적을수록 에너지 소비가 줄고, 서버 수와 공간 소요도 감소하며, 그 결과로 전체 냉각 수요도 줄일 수 있습니다. 업계 최고의 용량을 자랑하는 데이터 센터 SSD인 Solidigm D5-P5336은 최대 61.44TB의 용량으로 제공되며, 오늘날 최고 용량의 HDD에 비해 더 작은 운영 전력으로 대량의 데이터 세트를 저장할 수 있습니다.9
우리는 AI 랙(4 DHX 서버)당 사용되는 데이터 용량이 텍스트 기반 AI 애플리케이션의 경우 0.5에서 2.0PB 사이, 비전 기반 AI 애플리케이션의 경우 약 16PB의 데이터로 다양하다는 점을 확인했습니다. 뿐만 아니라, 여러 공급업체들이 AI 랙당 최대 32PB의 스토리지를 선보이고 있습니다. 아래 표에서 전력 절감 정도를 정확하게 나타내기 위해, 우리는 컴퓨팅 랙당 16PB의 데이터를 사용하기로 했으나, SSD 전력 절감은 필요한 데이터의 양에 따라 거의 선형적으로 증가한다는 점을 인식하고 있습니다.
비교를 위해, 우리는 TLC SSD 캐시/HDD 백엔드 스토리지 또는 Solidigm QLC SSD만으로 구성된 솔루션에 16PB의 데이터를 호스팅할 것입니다.
컴퓨팅 랙당 16PB의 데이터 스토리지 |
||
스토리지 구성 | TLC 캐시 HDD 백엔드 포함 |
Solidigm QLC SSD로만 구성 |
---|---|---|
데이터 지역성 | 분할
|
모든 데이터는 QLC NAND에 저장
|
스토리지 랙 공간 | ~3랙(78U), 아래 사항 포함 캐시: 12개의 SSD/1U 서버에 18U로 구성(각각 7.68TB의 TLC SSD 209개) 대용량 스토리지: 90개의 드라이브/3U JBoD에60U로 구성(각각 24TB의 HDD 1,800개, 삼중 미러링 가정) |
0.5랙(21U), 아래 사항 포함 대용량 스토리지: 12개의 SSD/1U 서버 1개 및 32개 드라이브/1U JBoF 2개, 또는 랙 공간 3U당 76개의 SSD에 21U로 구성(각각 61.44TB의 SSD 521개, 이중 미러링 가정)
|
스토리지 전력 | 18.9KW, 아래 사항 포함 캐시: 1.3KW(209 TLC SSD를 가정)
대용량 스토리지: 17.6KW(1800 HDD로 가정)
|
3.7KW 대용량 스토리지: 521 QLC SSD로 가정
|
지원 전력 및 랙 공간 | 10.5KW(3U-PSU + 3U-네트워킹에 각각 3.5KW)이며, 랙당 6U씩 총 18U의 랙 공간 | 3.5KW(3U-PSU + 3U-네트워킹) 및 6U의 랙 공간 |
총 전력 및 총 랙 공간 | 29.4KW, 3개의 랙에서 96U | 7.2KW, 1개의 랙에서 27U |
Solidigm D5-P5336 QLC SSD 어레이만으로 구성할 경우, 데이터 센터는16PB의 AI 데이터를 처리하면서 최대 22.2KW의 전력을 절약하고 랙 공간도 1.6개 이상 절약할 수 있습니다. 회사의 상황에 따라 다를 수 있겠지만, 일반적으로 이는 단일 랙의 AI 컴퓨팅에서 기존 스토리지 대신 QLC SSD를 도입함으로써 절약할 수 있는 전력 및 공간의 양에 해당합니다.
NVIDIA DGX H100 서버가 10.2KW를 소비하는데, 22.2KW의 전력을 절약하는 것은 그렇게 크게 느껴지지 않을 수 있지만, 이는 데이터 센터의 AI 애플리케이션을 위해 서버 두 대를 추가로 배치할 수도 있음을 의미합니다. 또한, AI를 위해 컴퓨팅 랙당 더 많은 데이터가 필요할 경우 절약할 수 있는 전력은 더욱 증가합니다.
여기에, 비용 차이도 고려해야 한다는 점을 빼놓을 수 없습니다. HDD를 구입하는 비용은 역사적으로 TB당 달러 기준으로 SSD보다 낮은 편이었습니다. 따라서, QLC SSD만으로 구성되는 스토리지의 획득 비용은 더 높을 수 있습니다.
그럼에도 불구하고, 전력에 제한을 받는 개보수 시설이나 제한된 전력의 그린필드 데이터 센터에서는 전력을 절약할 수 있는지 여부가 새로운 온라인 AI 애플리케이션의 도입을 좌우하는 결정적 요소가 될 수 있습니다.
전력 및 공간 효율성 면에서, 오늘날의 기업 Solidigm QLC SSD는 현대의 데이터 센터에 변혁을 일으키고 있습니다. 에너지 효율적이고 공간 효율적인 SSD 스토리지를 선택하는 것은 AI 인프라 투자에 대한 수익을 보다 효과적으로 극대화할 수 있습니다.
Dave Sierra는 Solidigm의 제품 마케팅 분석가로, 오늘날 데이터 센터가 직면한 인프라의 효율성 문제를 해결하는 데 집중하고 있습니다.
Ace Stryker는 Solidigm의 시장 개발 담당 이사로, AI 워크로드 및 솔루션에 특수한 전문성을 가지고 회사의 데이터 센터 스토리지 솔루션 포트폴리오를 위한 새로운 애플리케이션 개발에 집중하고 있습니다.
1. 평균 랙 전력 및 전력 세분화
2. 출처: https://resources.nvidia.com/en-us-tensor-core/nvidia-tensor-core-gpu-datasheet
3. 출처: https://www.idc.com/getdoc.jsp?containerId=US50554523
5. 출처: https://commoncrawl.org/
6. 출처: https://epochai.org/trends#data
7. 출처: https://engineering.fb.com/2022/09/19/ml-applications/data-ingestion-machine-learning-training-meta/
8. 스토리지의 배출에 대한 연구 요청, Carnegie Melon and Microsoft Azure, https://hotcarbon.org/assets/2024/pdf/hotcarbon24-final126.pdf
9. https://www.solidigm.com/products/data-center/d5/p5336.html