Kingsoft Cloud와 Solidigm™, AI 워크로드를 위한 혁신적인 오브젝트 스토리지 솔루션 공동 설계

Kingsoft Cloud는 중국에 소재한 수십억 달러 규모의 독립 클라우드 서비스 공급업체입니다.1 안전하고 안정적인 분산형 대용량 클라우드 스토리지 서비스를 저렴한 비용으로 제공합니다.

TDB
TDB

AI 혁명이 세상의 수많은 경계를 허물며 스토리지 아키텍처에 대한 새로운 요건을 제시하고 있습니다. Kingsoft는 클라우드 스토리지 플랫폼을 위한 Kingsoft Cloud, 그리고 WPS Office와 같은 오피스 소프트웨어를 위한 WPS 등 다양한 클라우드 컴퓨팅 서비스를 개발하며 업계를 선도해 왔습니다. Kingsoft Cloud는 최신 오브젝트 스토리지 솔루션인 KS3 Extreme Speed에서 솔리다임 SSD를 선택했습니다. 새로운 KS3 Extreme Speed의 대역폭 기능은 데이터 볼륨을 기준으로 유연하게 확장됩니다. SSD가 클수록 시스템은 더 많은 대역폭을 제공할 수 있습니다. 오늘날의 까다로운 워크로드에 대응하기 위해 WPS Office와 같은 Kingsoft 고객은 애플리케이션에 대한 더욱 빠른 액세스를 요구합니다. 이러한 문제를 해결하기 위해 Kingsoft는 스토리지 아키텍처의 성능과 용량을 모두 개선했습니다. Kingsoft는 HDD를 솔리다임 SSD로 대체하여 대역폭을 페타바이트당 1테라비트(Tbps) 이상으로 100배 넘게 개선했습니다.2 이를 통해 인공지능 생성 콘텐츠(AIGC), 애니메이션 렌더링, 고성능 컴퓨팅(HPC)과 같은 워크로드를 더욱 효과적으로 처리할 수 있게 되었습니다.

솔리다임은 광범위한 SSD 포트폴리오를 제공하여 AI와 같은 까다로운 분야에 아키텍처를 최적화할 수 있도록 지원합니다. 이제 성능, 비용 및 효율성의 균형을 효과적으로 관리할 수 있습니다.
Hongxing Gan, Kingsoft 오브젝트 스토리지 솔루션 엔지니어링 디렉터
Kingsoft Cloud KS3 Extreme Speed와 표준 오브젝트 스토리지 및 PL1/PL 2의 비교.

그림 1. Kingsoft Cloud의 스토리지 아키텍처의 진화

Kingsoft Cloud KS3 Extreme Speed의 강점

  • KS3 Extreme Speed는 스토리지 용량에 따라 세 가지 범위의 성능을 제공합니다. PL1은 페타바이트당 200기가비트(Gbps), PL2는 페타바이트당 500Gbps, PL3은 페타바이트당 1Tbps로 최고 성능을 제공합니다.
  • KS3 Extreme Speed는 제로 비용 공간 회수 기술을 지원하는 가비지 수집 메커니즘을 재설계하여 SSD의 성능과 수명을 개선했습니다.
  • KS3는 스레드 스케줄링을 크게 개선하여 프로세스의 속도와 효율성을 높였습니다. 내부 스케줄링 모듈을 최적화함으로써 롱테일 작업의 요청 차단을 방지하고 응답 시간을 단축했습니다.

그림 1은 Kingsoft의 새로운 아키텍처와 비교한 이전 아키텍처를 보여줍니다. 이전 설계에서는 AI와 같은 분야에 필요한 높은 처리량을 지원하지 못했기 때문에 S3 서비스 앞에 파일 시스템 캐시가 배포되었습니다. Kingsoft는 병목 현상이 없는 새로운 아키텍처가 필요했습니다. 새로운 설계 덕분에 Kingsoft 고객은 오브젝트 스토리지를 S3에 직접 연결할 수 있습니다. 오브젝트 수명이 S3 내부에 설정되어 있기 때문입니다. 이러한 설계 덕분에 용량, 성능, 비용의 균형을 효과적으로 관리할 수 있게 되었습니다.

Kingsoft Cloud S3와 Kingsoft Cloud KS3 Extreme Speed 서버 설계.

그림 2. Kingsoft Cloud S3와 KS3 Extreme Speed

비즈니스 과제

 

오늘날의 AI 워크로드는 더 큰 데이터 세트를 사용하고 더 큰 모델을 만들어 냅니다. AI를 간편하게 구축하고 관리할 수 있도록 Kingsoft는 다양한 AI 워크로드를 처리하는 간편 솔루션을 개발했습니다.

특정 AI 인스턴스에서 높은 I/O 처리량은 대형 모델의 훈련에 매우 중요합니다. 이러한 시스템은 방대한 데이터를 처리하고 다양한 계산을 실시간으로 수행하기 위해 높은 IOPS(초당 입출력 작업)를 요구하기 때문에 AI 모델을 효율적으로 훈련하기 위해서는 더 빠른 스토리지가 필요합니다.

예를 들어, 대략 40TB의 훈련 데이터 양을 가진 1,750억 개 파라미터의 대규모 데이터 모델에서 페타바이트당 20Gbps의 처리 용량을 갖춘 표준 오브젝트 스토리지를 사용하는 경우, 모든 훈련 데이터를 로딩하는 데 535분 이상이 걸립니다.

KS3 Extreme Speed 오브젝트 스토리지를 사용하면 페타바이트당 1Tbps의 처리가 가능하며, 11분 만에 모든 데이터를 로딩할 수 있습니다.3 이는 48.6배 개선된 수치입니다. 다른 장점도 많이 있습니다. 기타 기대 효과:

  • 탄력적 고성능 확장에 대한 수요: 데이터 센터는 다량의 소형 파일에 빠르게 액세스해야 하는 AI 훈련, 딥 러닝 및 기타 첨단 분야의 높은 IOPS 요구 사항을 충족해야 합니다. 데이터 증대에 따른 시스템 전반의 복잡성 및 성능 문제를 해결하기 위한 동시성, 안정성, 유연성, 확장성에 대한 수요도 여기에 포함됩니다.
  • 데이터 라이프사이클 관리 요구 사항: 일반적인 AI 훈련 워크플로를 채택하는 경우, 데이터 수집, 데이터 정리 및 태깅 프로세스에서 이미지나 텍스트와 같은 방대한 비정형 데이터를 처리해야 합니다. 이러한 유형의 데이터는 많은 스토리지 공간과 높은 순차 읽기 및 쓰기 속도를 요하며, 여기에 상당한 비용이 들어갈 수 있습니다.
  • 시스템 장애가 발생해도 속도 저하 없음: KS3 Extreme Speed를 사용하면 단일 시스템 고장으로 인하여 발생하는 시스템 작동 문제를 효과적으로 처리할 수 있습니다. 장애가 발생하더라도 시스템을 이전처럼 빠르게 실행하면서 하드웨어 피해를 줄일 수 있는 4가지 주요 하드웨어 장애 해결 시스템이 포함되어 있기 때문입니다.

솔리다임 SSD가 최적의 스토리지를 제공하는 방법

AI와 같은 새로운 서비스로 인해 발생하는 데이터 부담을 감안할 때 Kingsoft Cloud의 하드웨어를 최신 상태로 유지하는 것이 필수적입니다. 스토리지 I/O 성능을 향상시키기 위해 원래는 SATA SSD 및 SATA HDD 교체를 고려했습니다. 그러나 심층 조사 결과 이것은 가장 효율적인 방법이 아닌 것으로 확인되었습니다. 대신 TLC NVMe SSD로 전환하여 I/O 성능 요구 사항을 충족하는 게 더욱 합리적이었습니다.

그러나 솔리다임의 추가 연구 끝에 Kingsoft는 QLC SSD의 가치를 확인했습니다. TLC보다 셀당 비트가 33% 더 많은 솔리다임 QLC SSD는 3x8 스토리지 통합을 바탕으로 TCO를 개선합니다. 솔리다임은 TLC SSD와 동등한 내구성과 성능을 갖춘 7.68TB - 60.72TB 범위의 QLC SSD를 제공합니다.

"두 회사의 시스템 특성을 이해하기 위해 솔리다임과 여러 차례 심층적인 커뮤니케이션을 진행했으며, 이를 통해 새로운 스토리지의 가치를 이해할 수 있었습니다. 이제 웹 애플리케이션 방화벽(WAF)을 줄이고 전반적인 처리량과 안정성을 향상시킬 수 있습니다." Hongxing Gan의 말입니다.

Kingsoft Cloud와 솔리다임의 협업은 성공적이었습니다. 솔리다임 TLC 및 QLC SSD는 Kingsoft의 객체 스토리지 서비스 기능을 향상시키고 운영 비용을 개선한 것으로 나타났습니다. 솔리다임은 또한 Kingsoft에 우수한 지원을 제공하는 고객관리팀을 통해 품질과 신뢰성을 한 단계 끌어올렸습니다.

"Kingsoft Cloud는 솔리다임 QLC라는 새로운 미디어를 기반으로 기술 및 제품 역량을 지속적으로 강화해 고성능, 고효율 객체 스토리지 제품을 만들고 다양한 부문의 사용자에게 더욱 뛰어난 가치를 제공할 것입니다." Hongxing Gan의 말입니다.


저자 소개

솔리다임의 제품 마케팅 매니저인 Jeniece Wnorowski는 데이터 센터 스토리지 솔루션 분야에서 14년 넘게 일한 전문가입니다. 인텔 기술 마케팅팀에서 경력을 시작한 Jeniece는 솔리다임에 합류한 후 다양한 회사 및 파트너와 함께 데이터 센터 SSD 혁신을 전파하고 있습니다. 퇴근 후에는 주로 아이들과 시간을 보내고, 주짓수를 배우고, 야외 활동을 즐깁니다. Wayne Gao는 스토리지 솔루션 설계자로, PF부터 Alibaba 상용 릴리스에 이르는 CSAL을 담당했습니다. DellEMC ECS 올 플래시 객체 스토리지 팀의 스토리지 개발자로 20년 넘게 근무했으며, 미국 특허를 4건 출원하고 EuroSys 논문을 1건 발표했습니다.

참고

[1] https://www.macrotrends.net/stocks/charts/KC/kingsoft-cloud-holdings/total-assets

[2] https://mp.weixin.qq.com/

[3] https://mp.weixin.qq.com/