엔터프라이즈 IT는 조정해야 할 몇 가지 상충되는 요구 사항을 가지고 있습니다. 현재와 미래의 애플리케이션 고려 사항이 있으며, 전력, 냉각 및 공간 제약과 더불어 자본 지출(CapEx) 및 운영 비용(OpEx) 측면에서의 인프라 비용도 존재합니다. 물론, 비즈니스를 지속적으로 운영해야 하는 과제도 있습니다.
신규 구축이 아닌 이상, 대부분의 엔터프라이즈 데이터 센터는 하이브리드(SSD+HDD) 스토리지 어레이를 사용합니다. 하지만 또 다른 솔루션이 있습니다. 바로 올플래시 스토리지 어레이(AFA)로, 이는 특히 AI 활동과 관련하여 여러 차원에서 기업에 상당한 이점을 제공할 수 있는 SSD 전용 구성입니다. 혁신적인 IT 기업 중 다수는 이미 AFA 스토리지로 전환했으며, 나머지 기업들도 AI 데이터 요구 사항을 지원하기 위해 이를 검토하고 있습니다.
AI는 비즈니스를 수행하는 새로운 방식과 핵심 프로세스를 지원하는 더 나은 방법을 제공합니다. 그러나 IT 부서가 AI를 구현하는 데 따르는 과제는 많습니다. 즉, 값비싼 신규 컴퓨팅, 전력 및 냉각 인프라와 AI 애플리케이션 그 자체입니다. AI 인프라 비용을 고려할 때, 주요 관심사는 활용률을 높게 유지하는 것입니다. 적절한 IO 성능은 AI 인프라를 바쁘게 가동하는 데 있어 핵심 요소 중 하나입니다.
하지만 기업이 AI 애플리케이션에서 얻는 진정한 가치는 학습이나 추론 그 자체가 아니라, 이를 통해 기업이 할 수 있게 되는 모든 것에 있습니다. 예:
이러한 AI 부가 활동이나 후속 활동 중 어떤 것이든 하이브리드 스토리지를 사용할 수 있지만, IO 활동이 증가함에 따라 하이브리드 시스템은 성능 저하를 겪기 시작합니다. 즉, IO 활동 수요가 높을 때 하이브리드 시스템은 종종 속도가 느려지기 시작합니다.
하이브리드 스토리지의 IO 성능 문제는 모두 그 기본 아키텍처에서 비롯됩니다. 본질적으로 이러한 시스템은 핫 데이터(빈번하게 액세스되는 데이터)는 SSD에, 콜드 데이터(덜 액세스되는 데이터)는 HDD에 저장되도록 데이터 배치를 최적화하려고 합니다. 활동별로 쉽게 분류할 수 있는 데이터에는 이 방식이 잘 작동할 수 있지만, 그렇게 쉽게 분류할 수 없는 데이터나 데이터 액세스 활동이 증가할 때는 데이터가 HDD에서 SSD로 이동했다가 다시 그 반대로 이동해야 하는 경우가 많으며, 이를 스래싱(thrashing)이라고 합니다. 스래싱은 애플리케이션 IO에 모든 리소스를 쏟아야 할 때 하이브리드 시스템의 워크로드를 증가시킵니다.
하이브리드 스토리지 공급업체들은 이러한 모든 추가 데이터 이동을 줄이고 억제하기 위해 데이터 배치를 최적화하는 매우 다양한 방법을 가지고 있다는 점을 언급해야 합니다. 하지만 결국 콜드 데이터에 액세스해야 할 때는 SSD로 이동되거나 HDD에서 직접 액세스해야 합니다. 핫 데이터가 더 이상 액세스되지 않으면 더 많은 핫 데이터를 위한 공간을 확보하기 위해 다시 HDD로 이동해야 합니다.
반면, AFA 시스템은 높은 IO 활동 중에도 하이브리드 어레이와 같은 수준의 데이터 이동이나 성능 문제가 거의 발생하지 않습니다. 이는 데이터를 오프로드하거나 한동안 액세스하지 않은 데이터를 검색하기 위해 더 느린 계층의 스토리지로 이동할 필요가 전혀 없기 때문입니다. 하이브리드 시스템에서 나타나는 IO 지연 시간(latency) 및 성능의 변동성은 시스템의 정교함과 관계없이 AFA 스토리지에서 훨씬 적습니다. 결과적으로 AFA 시스템은 활동량에 관계없이 훨씬 더 일관되고 높은 IO 성능을 제공합니다.
AFA 시스템은 사용된 페이지를 비우기 위해 데이터가 기록될 때 고유한 SSD 수준의 데이터 이동이 발생하며, 디바이스 내부의 데이터 저장 위치를 관리하는 내부 가상화 기능을 갖추고 있습니다. 그러나 이러한 이동 및 가상화는 읽기 IO에 대한 오버헤드가 거의 없고 쓰기에 대한 오버헤드만 미미하며, 디바이스 수준에서 데이터의 단방향 이동만 발생시킵니다. 데이터는 곧 비워질 페이지에서 새 페이지로 이동하지만, 가비지 컬렉션(garbage collection) 중에 다시 되돌아갈 필요는 없습니다.
이전 블로그 게시물인 전력 효율이 높은 스토리지의 놀라운 성능에서 우리는 Solidigm QLC SSD가 AI 학습 및 추론을 위한 데이터 레이크를 지원함에 있어, 올HDD 시스템 대비 공간 및 전력 요구 사항을 어떻게 크게 줄일 수 있는지에 대해 자세히 논의했습니다. 해당 게시물의 결과를 요약하자면, AI를 위한 올HDD 솔루션과 비교했을 때 1PB의 데이터를 지원하는 데 Solidigm 61.44TB QLC SSD는 더 적은 드라이브(521개 SSD 대 1800개 HDD), 더 적은 전력(22.2kW 절감), 더 적은 랙 공간(약 60개 더 적은 RU)을 필요로 합니다.
그리고 하이브리드 데이터 스토리지와 올플래시 스토리지를 비교할 때 성능, 공간, 전력 및 냉각 측면의 이점 외에도 더 많은 장점이 있습니다. 예를 들어, SSD의 신뢰성은 HDD 스토리지보다 훨씬 뛰어납니다. 소비자 등급 스토리지의 경우, SSD는 HDD 스토리지보다 최소 3분의 1 이상 더 우수하거나 신뢰할 수 있습니다.
그리고 일반적인 SSD 산업 표준을 훨씬 뛰어넘는 사양으로 테스트되는 엔터프라이즈급 Solidigm SSD의 경우 그 성능은 더욱 뛰어납니다. 실제로 Solidigm SSD는 35억 년 이상의 시뮬레이션된 작동 수명 동안 단 한 건의 데이터 손상 이벤트도 감지되지 않았습니다.1
AFA 및 하이브리드 시스템 모두 유지보수 비용으로 수리 및 서비스 비용을 충당하는데, 더 나은 신뢰성이 기업에 어떤 이점을 줄까요? 하이브리드 대 AFA 시스템의 유지보수 비용으로 기업이 지불하는 금액은 여러 요인이 작용하기 때문에 직접 비교하기 어렵지만, 일반적으로 고장률이 높은 시스템은 교체 재고와 서비스 호출이 더 많이 필요하기 때문에 비용이 더 많이 듭니다. 또한 HDD가 고장 났을 때의 스토리지 시스템 성능은 SSD가 고장 났을 때보다 더 큰 타격을 받습니다.2
이러한 차이의 한 가지 예는 이레이저 코딩(erasure coding) 데이터 보호를 사용하는 시스템에 있습니다. RAID 스트라이프에서 SSD 또는 HDD 드라이브 하나가 고장 나면, 손실된 데이터를 재구축하고 재구성하기 위해 스트라이프 내의 다른 모든 드라이브를 읽어야 합니다. 이 재구축 프로세스는 드라이브의 속도와 용량에 따라 오랜 시간이 걸릴 수 있습니다. SSD의 대역폭은 HDD보다 약 10배에서 25배 더 높습니다. 또한 SSD의 IO 대기 시간은 마이크로초 단위인 반면 HDD의 IO 대기 시간은 밀리초 단위로, SSD가 HDD보다 1,000배 더 빠르게 IO를 수행합니다. 따라서 유사한 용량의 드라이브에 대한 재구축 시간은 HDD보다 SSD가 훨씬 짧은 경향이 있습니다.
재구축 활동 중에는 스토리지 시스템이 더 바빠지며, 이는 시스템을 전체 성능으로 복구하는 데 걸리는 시간을 늘릴 뿐입니다. 이 모든 사실은 하이브리드 HDD 드라이브가 고장 났을 때(3년 사용 후 HDD의 고장률이 SSD보다 높다는 점 참고3), 재구축 중 시스템 성능이 더 큰 타격을 받는다는 것을 알려줍니다. 따라서 AFA에서 SSD 오류가 발생해도 비슷한 차질이 빚어지지만, 훨씬 빠른 성능과 높은 대역폭 덕분에 재구축 시간이 훨씬 단축됩니다.
역사는 하이브리드 어레이의 편이 아닙니다. 데이터 센터에 수십 년간 존재해 왔지만, 엔터프라이즈 디스크 출하량은 10여 년 전에 정점을 찍었습니다.
일각에서는 HDD 출하량 감소세가 둔화되고 있다고 말합니다. 하지만 그것이 전체 이야기를 설명해 주지는 않습니다. 엔터프라이즈 HDD 유닛 출하량은 감소했으며,4 여전히 대량으로 출하되는 유일한 HDD는 느린 오브젝트 스토리지에 사용되는 니어라인(nearline) 디스크뿐입니다. 그리고 엔터프라이즈 디스크 출하량이 가파르게 감소하기 시작할 무렵, SSD 출하량이 증가하기 시작했습니다.
요약하자면, 엔터프라이즈 AI 활동을 위해 하이브리드 어레이 대신 AFA, 즉 올SSD 스토리지 시스템을 사용하면 수많은 이점이 있습니다. 이러한 이점에는 필요시 더 높고 일관된 IO 성능, 더 높은 신뢰성, 더 낮은 전력 소모, 냉각 감소, 설치 공간 축소 등이 포함됩니다.
게다가 엔터프라이즈 HDD의 감소와 SSD 출하량의 증가는 하이브리드 스토리지의 시대가 얼마 남지 않았으며, 올플래시 스토리지 시스템이 기업의 AI 워크로드 및 기타 유사한 IO 집약적 워크로드 요구 사항을 위한 새로운 기본 스토리지 솔루션이 되었음을 알려주는 또 다른 증거입니다.
Ace Stryker는 Solidigm의 시장 개발 담당 이사로, AI 워크로드 및 솔루션에 특수한 전문성을 가지고 회사의 데이터 센터 스토리지 솔루션 포트폴리오를 위한 새롭게 부상하는 애플리케이션에 집중하고 있습니다.