데이터 센터에서의 AI 진화와 열 고려 사항

데이터 센터 SSD를 위한 Solidigm 단면 콜드 플레이트 기술의 효과를 보여주는 얼음 결정.
데이터 센터 SSD를 위한 Solidigm 단면 콜드 플레이트 기술의 효과를 보여주는 얼음 결정.

총괄 요약

인공지능(AI) 및 고성능 컴퓨팅(HPC) 워크로드는 데이터 센터 전반에 걸쳐 컴퓨팅 밀도의 급격한 증가를 주도하고 있으며, 발열량과 전력 수요를 상당히 높이고 있습니다. 기존의 공랭식 냉각 방식은 AI 및 HPC 워크로드를 구동하고 활성화하는 데이터 센터 인프라 및 구성 요소를 냉각하는 속도를 따라잡는 데 어려움을 겪고 있습니다.  인프라의 전력 프로파일이 구성 요소의 전력 및 열 한계를 급격히 증가시킴에 따라, 이러한 구성 요소들은 효율성의 한계에 빠르게 도달하고 있습니다. 

직접 액체 냉각(DLC)은 CPU, GPU, DPU, NIC 및 솔리드 스테이트 드라이브(SSD)를 포함한 서버 및 서버 구성 요소를 냉각할 수 있는 효과적인 방법이며, 열 효율성을 높이고 운영 비용을 절감할 수 있는 혁신적인 기회를 제공합니다. Solidigm의 핫 스왑이 가능한 완전 액체 냉각 SSD(Solidigm™ D7-PS1010 E1.S)는 차세대 팬리스(fanless) 및 열 최적화 AI 서버 아키텍처의 설계, 개발 및 배포를 가능하게 하여 현대 데이터 센터의 열 관리 및 비용 절감이라는 두 가지 과제를 해결합니다.

AI 워크로드와 증가하는 열 문제

AI가 지속적으로 진화함에 따라 서버 워크로드는 점점 더 컴퓨팅 및 전력 집약적으로 변하고 있으며, 랙 전력 밀도가 100kW를 초과하고 있습니다. 이러한 고성능 GPU 클러스터는 기존 공랭식 시스템이 처리할 수 있는 범위를 훨씬 넘어선 전례 없는 열 유속을 발생시킵니다. 이러한 변화로 인해 많은 데이터 센터가 새로운 냉각 패러다임을 채택하게 되었습니다. 기존의 공랭식 데이터 센터는 일반적으로 약 2.0의 전력 사용 효율(PUE)로 운영되는 반면,1 차세대 액체 냉각 데이터 센터는 1.2까지 낮은 PUE를 달성하여1 에너지 효율성이 크게 개선되었음을 보여줍니다. PUE를 낮춤으로써 얻는 부산물이자 추가적인 이점은 데이터 센터 운영 비용의 절감이며, 이는 상당할 수 있습니다.

냉각은 기존 공랭식 데이터 센터 에너지 비용의 35%~45%1를 차지합니다. 액체 냉각은 에너지 소비를 최대 10% 줄이고 PUE를 약 15% 개선하는 강력한 대안을 제공합니다. 이러한 개선 사항은 운영 비용을 낮출 뿐만 아니라 환경적 지속 가능성에도 기여합니다. ABI Research는 더 높은 컴퓨팅 밀도에 대한 수요와 300%~500%에 이르는 에너지 효율성 향상에 힘입어 액체 냉각 시장이 2030년까지 37억 달러 규모에 이를 것으로 전망합니다.2

액체 냉각 기술 및 인프라

데이터 센터는 칩 직접 접촉(direct-to-chip) 콜드 플레이트, 후면 도어 열교환기, 침수 냉각(immersion cooling) 시스템 등 다양한 액체 냉각 기술을 점점 더 많이 채택하고 있습니다. 특히 콜드 플레이트 시스템은 NVIDIA GB300 플랫폼을 특징으로 하는 배포 사례에서 볼 수 있듯이 최대 120kW의 랙 밀도를 지원할 수 있습니다. 액체 냉각 개조가 가능하긴 하지만, 가장 효율적인 배포는 처음부터 DLC 시스템을 수용하도록 인프라를 목적에 맞게 설계할 수 있는 그린필드(신규 구축) 데이터 센터에서 주로 이루어집니다.

전력 및 성능 프로필의 최첨단을 이끄는 고밀도 AI 서버에서는 서버 열 부하를 가중시키는 모든 서버 구성 요소를 고려해야 합니다. 팬을 통해 서버 구성 요소 안팎으로 강제 공기를 밀어 넣는 기존의 공기 기반 냉각 방식은 이러한 고성능 구성 요소에 부적합한 것으로 드러나고 있습니다. 액체 냉각은 공기보다 1000배에서 3000배3 높은 열 전도율을 가진 액체를 사용하여 우수한 열 관리 솔루션을 제공하며, 더 나은 열 방출과 전반적인 시스템 성능 및 수명 향상을 가능하게 합니다.

차세대 액체 냉각 SSD 솔루션

SSD를 액체 냉각하는 기존의 방식에는 SSD 양면에 콜드 플레이트를 배치하는 것이 포함됩니다. 냉각 유체가 콜드 플레이트를 통해 펌핑되어 SSD와 SSD 양면 내외부에 있는 구성 요소를 냉각합니다.

액체 냉각 SSD 구현에서 콜드 플레이트와 SSD는 일반적으로 인클로저 내에 위치하여 장치의 구조적 무결성, 서비스 용이성 및 최적의 열 전달률을 보장합니다. 콜드 플레이트와 SSD 간의 열 교환을 극대화하기 위해 열 인터페이스 재료(TIM)가 사용됩니다. TIM은 SSD를 콜드 플레이트에 연결하여 콜드 플레이트와 SSD 사이의 표면 접촉 면적을 넓혀 최고의 열 효율성을 달성합니다.

Solidigm D7-PS1010 9.5mm E1.S SSD는 단일 콜드 플레이트를 사용하여 SSD의 양면을 냉각함으로써 스토리지 열 관리의 획기적인 발전을 도입합니다. 이 설계는 단일 SSD 냉각에 필요한 콜드 플레이트 수를 줄임으로써 서버의 드라이브 스토리지 밀도와 용량을 증가시킵니다. 또한 NVIDIA와 협력하여 설계된 Solidigm D7-PS1010 9.5mm E1.S SSD 및 콜드 플레이트 인클로저는 단면 콜드 플레이트로 25W를 넘는 열을 방출할 수 있습니다. 또한 듀얼 콜드 플레이트 솔루션의 주요 과제인 완전한 핫 스왑 기능을 지원하며, 차세대 팬리스 서버 구성을 지원하고 활성화할 수 있는 미래 지향적 준비가 되어 있습니다.

 SSD용 콜드 플레이트 기술 비교: Solidigm의 단면 콜드 플레이트 대 양면 콜드 플레이트. 그림 1. 양면 대 단면 콜드 플레이트 구현 비교

 

공랭식 및 수랭식 배포를 위한 9.5mm 폼 팩터와 공랭식 전용 배포를 위한 15mm 폼 팩터로 제공되는 이 드라이브는 다양한 인프라 요구 사항에 맞는 유연성을 제공합니다. Solidigm D7-PS1010 9.5mm E1.S SSD는 소형의 완전 액체 냉각 1U 서버를 구축할 수 있게 하여 내부 팬의 필요성을 없애고 더 높은 밀도와 열 효율성을 가능하게 합니다.

액체 냉각을 SSD로 확장함으로써 데이터 센터는 열 스로틀링을 줄이고 시스템 신뢰성을 향상시킬 수 있습니다. Solidigm SSD의 완전 액체 냉각 및 핫 스왑 가능 설계는 엔터프라이즈급 서비스 용이성을 지원합니다. 또한 랙 수준 밀도를 높이고, 공기 흐름 설계를 단순화하며, 자본 및 운영 지출을 줄이는 초소형 팬리스 1U 서버 개발을 촉진합니다. 이러한 서버는 총 에너지 소비를 낮추고 조직이 환경, 사회 및 지배구조(ESG) 목표를 달성하도록 도울 수 있습니다.

SSD 액체 냉각을 도입함으로써 데이터 센터는 냉각 시스템에 할애되는 공간을 최소화하여 더욱 컴팩트한 레이아웃을 구현할 수 있습니다. 이러한 공간 효율성은 동일한 시설 내에서 더 높은 컴퓨팅 밀도를 구현하거나 성능 저하 없이 전체 데이터 센터 크기를 줄일 수 있게 합니다. 공랭식 설정에서 비랙(non-rack) 영역의 상당 부분을 차지할 수 있는 냉각 관련 공간의 감소는 전체적으로 약 23%~27%의 공간 절약 효과를 가져옵니다.4

요약

AI 인프라가 나아갈 방향은 서브시스템 전체에 액체 냉각을 채택하여 모든 서버 구성 요소가 목표 운영 효율성과 기능으로 작동하게 함으로써 최고의 성능을 제공하는 데 있습니다. 새로운 데이터 센터 구축 초기 단계부터 Solidigm D7-PS1010과 같은 완전 액체 냉각 SSD를 통합하면 가장 큰 이점을 얻을 수 있습니다. 기존 배포의 경우, 개조(retrofitting)를 위해서는 냉각 분배 장치(CDU) 구현을 포함한 인프라 업데이트가 필요합니다. HVAC 및 서버 유지 보수 감소로 인한 PUE 및 총 소유 비용(TCO) 개선 효과를 평가하면 투자 타당성을 검증하는 데 도움이 될 것입니다. 미래의 설계는 운영 및 지속 가능성 이점을 완전히 실현하기 위해 CPU, GPU, DPU, NIC 및 스토리지 전반에 걸쳐 냉각을 조화시켜야 합니다.

AI 기반 워크로드는 데이터 센터 아키텍처를 재편하고 있으며 기존 냉각 방식의 한계를 시험하고 있습니다. 스토리지 장치로 확장된 액체 냉각은 열 효율성을 높여 운영 비용을 절감할 수 있는 기회를 제공합니다. Solidigm의 완전 액체 냉각 SSD는 운영 효율성을 높이는 동시에 에너지 사용량과 비용을 절감하는 열 최적화된 차세대 팬리스 고밀도 서버 설계로 가는 길을 제시합니다. 이러한 혁신은 데이터 센터가 미래의 AI 애플리케이션 수요를 더 큰 민첩성과 지속 가능성으로 충족할 수 있도록 합니다.


저자 소개

Pompey Nagra는 Solidigm의 제품 및 에코시스템 마케팅 매니저입니다. 그는 까다로운 데이터 센터 및 AI 배포를 위한 솔루션을 개발하고 통합하는 컴퓨팅, 네트워킹, 스토리지 및 통신 산업 분야의 경험을 보유하고 있습니다. Pompey는 영국 킹스턴 대학교에서 컴퓨팅 및 비즈니스를 포함한 전자 공학 학사(BEng) 학위를 받았습니다.

참고:

1. https://en.wikipedia.org/wiki/Category:Data_centers

2. https://blog.geoactivegroup.com/2025/02/ai-driven-data-center-liquid-cooling.html

3. www.jtti.cc/supports/2895.html

4. https://www.solidigm.com/products/technology/economics-of-exabyte-data-storage.html#bodycopy5