Baidu ABC 스토리지: 개체 스토리지 재정의

Baidu ABC 스토리지는 Intel® Optane™ SSD 및 Intel® QLC 3D NAND SSD 기술을 활용하여 더 뛰어난 성능과 용량을 자랑합니다.


요약 정보

  • Baidu AI Cloud*는 IT 및 인터넷 산업의 선두 기업입니다.
  • Baidu AI Cloud는 Intel과의 파트너십을 통해 ABC(AI, Big Data, Cloud) 스토리지의 올플래시(all-flash) 개체 스토리지 솔루션의 핵심 하드웨어로 Intel® Optane™ 기술 및 Intel® QLC 기술이 함께 적용된 SSD를 사용했습니다.

인공 지능(AI) 교육, 빅 데이터 처리 및 HPC(고성능 컴퓨팅)와 같은 고급 기술이 프라이빗 클라우드 스토리지 서비스의 개발 방향을 주도하고 있습니다. 대용량 데이터를 위한 스토리지 시스템은 특히, 대량의 비정형 소용량 파일과 관련하여 고성능 스토리지 시스템이 필요한 영역에서 기업의 니즈와 밀접하게 연결되어 있습니다.

Baidu AI Cloud*는 IT 및 인터넷 산업의 선두 기업으로서 퍼블릭 클라우드 스토리지 기술 부문에서 쌓은 다년간의 경험을 ABC 전략의 핵심 요소인 프라이빗 클라우드 스토리지 솔루션에 적용했습니다. Baidu AI Cloud는 Intel과의 파트너십을 통해 ABC 스토리지의 올플래시 개체 스토리지 솔루션의 핵심 하드웨어로 Intel® Optane™ 기술 및 Intel® QLC 기술이 적용된 SSD를 사용했습니다.

"Baidu AI Cloud는 고성능 올플래시 개체 스토리지 솔루션이 대량의 비정형 소용량 파일로 인해 프라이빗 클라우드 사용자가 겪는 문제를 해결하는 데 도움이 될 것으로 기대하고 있습니다. Intel® Optane™ 솔리드 스테이트 드라이브(SSD)와 Intel® QLC 3D NAND 기술 기반 Intel® SSD의 조합을 통해 Baidu AI Cloud 솔루션은 안정성과 IOPS(초당 입출력 처리 횟수) 측면에서 최상의 결과를 내고 있습니다."
Baidu AI Cloud ABC 스토리지 팀

데이터 증가—기회와 과제

전 세계 데이터의 양은 2025년까지 163ZB(제타바이트)로 증가할 것으로 예상됩니다.1 데이터의 방대한 양으로 인하여, 특히 비정형 데이터가 폭발적으로 증가하여 기업 데이터가 디지털화되는 추진력이 생겼고, 관련 IT 기술이 빠르게, 지속적으로 발전하기 시작했습니다. 이러한 데이터 양은 컴퓨터 비전, 음성 인식, 재무 위험 제어와 같은 기술의 혁신을 지원할 것으로 예상됩니다. 따라서 방대한 데이터를 효과적으로 관리, 처리 및 활용할 수 있는 능력은 업계에서 우위를 유지하려는 기업이 경쟁력을 갖추는 데 핵심 요소가 되었습니다.

그러나 대용량 비정형 데이터의 저장은 파일 크기와 양, 인덱싱, 액세스 패턴, 레거시 스토리지 기술(예: 회전 드라이브)로 인해 기존 스토리지 시스템에 문제를 야기합니다. 또한 블록 스토리지 및 파일 스토리지 시스템은 작은 파일 스토리지에 적합하지 않은 반면, AI 및 기타 새로운 애플리케이션은 읽기/쓰기 성능 측면에서 스토리지 시스템에 대해 더 높은 요구 사항을 갖습니다. 이는 흥미로운 기술적 과제를 제시합니다.

파일 크기 및 양—기존 파일 스토리지 시스템의 성능에는 변동성이 있으며 파일 양이 급격히 증가하면 성능이 저하되는 경향이 있습니다. 이미지 인식과 같은 AI 훈련 시나리오에서 훈련 데이터세트에는 놀라운 파일(일반적으로 작은 크기) 양이 통합됩니다. 마찬가지로 미디어 자산 관리, 무인 차량, 비디오 서비스와 같은 인기 있는 인터넷 애플리케이션의 경우에도 시스템에 저장 및 처리되는 파일의 양이 일반적으로 수억 개에 이릅니다. 파일 수가 급격히 증가하면 스토리지 시스템, 특히 NAS(Network Attached Storage) 시스템과 같은 기존 파일 스토리지에서 IOPS 성능이 떨어지며, 일관된 성능으로 작동하지 않습니다.

인덱싱—또한 파일 스토리지 시스템은 현재 해시 트리 및 B+ 트리 컴퓨팅 방법을 사용하여 디렉토리를 관리하고 인덱싱합니다. 디렉터리를 관리하고 인덱싱하는 데 사용되는 알고리즘은 1억 개 이상의 파일이 있는 디렉터리에서 검색할 때 효율성과 성능이 크게 저하되는 경향이 있습니다.

액세스—특정 애플리케이션 시나리오에서 "한 번 읽고 많이 쓰기" 또는 "읽기/쓰기 혼합" 액세스 모드는 성능 면에서 문제를 더욱 악화시킵니다. 일반적인 파일 I/O 프로세스는 "열기", "검색", "읽기/쓰기" 및 "닫기" 작업으로 구성됩니다. "읽기" 또는 "쓰기" 전 "열기"에 시스템 시간과 리소스가 가장 많이 소요됩니다. 따라서 "읽기/쓰기 혼합" 액세스 모드를 처리할 때 시스템은 "열기" 작업을 반복적으로 실행합니다. 대규모 동시 작업이 발생하면 막대한 양의 시스템 리소스가 낭비되어 성능이 저하됩니다.

HDD—IOPS 및 임의 읽기/쓰기 성능 측면에 존재하는 기존 HDD의 약점이 스토리지 시스템의 성능 업그레이드를 방해해왔습니다. 기계적 한계로 인해 고성능 HDD라 하더라도 임의 읽기/쓰기 성능에 관한 IOPS 수치가 수백 회에 불과합니다.2 작은 파일을 처리할 때는 HDD가 여러 스토리지 위치에서 파일을 지속적으로 검색하고 찾아야 하므로 효율성이 훨씬 더 낮습니다.

Baidu ABC Storage의 고성능 올플래시 스토리지 솔루션

Baidu는 검색 기술 분야에서 널리 인정을 받아왔습니다. 매일 1,000억 개 이상의 페이지, 2,000페타바이트(PB)의 데이터가 저장되고 100PB의 데이터가 처리되는3 Baidu는 방대한 양의 소용량 비정형 파일을 저장할 때 발생하는 기술적 문제를 해결하는 데 능통합니다.

Baidu AI Cloud는 소프트웨어를 개선하고 Intel® 기반 하드웨어를 사용하여 위 문제를 해결하려고 했습니다.

baidu-article-node-specs-flowchart.jpeg

소프트웨어

개발자들은 Baidu의 고성능 개체 스토리지 엔진을 새 솔루션에 통합하여 뛰어난 데이터 수명 주기 관리, 데이터 보호 전략, 검색 효율성, InfiniBand* 아키텍처 네트워크 및 RDMA 지원, 유연한 권한 관리 메커니즘을 제공할 수 있도록 했습니다. ABC 스토리지 고성능 개체 스토리지 엔진은 또한 개체 스토리지, 고효율 검색 및 엑사바이트 확장성을 위한 플랫 배포를 활용하여 프라이빗 클라우드 사용자에게 방대한 양의 소용량 비정형 파일을 저장할 수 있는 스토리지를 제공합니다.

AI 훈련 프로세스는 데이터 수집, 정리 및 레이블 지정, 크기 조정, 모델링, 훈련, 평가와 예측으로 구성됩니다. 각 단계에서 스토리지 시스템은 읽기, 쓰기 및 검색 작업을 수행해야 합니다. 완전 부하 작업을 위한 시스템 훈련에 충분한 데이터가 제공될 수 있도록 데이터는 훈련 전반에 걸쳐 동시에 반복 처리됩니다.

Baidu의 개체 스토리지 엔진은 대용량 파일의 성능 문제를 해결하여 스토리지 시스템이 안정적인 성능 출력을 달성하고 AI 애플리케이션의 데이터 활용 효율성을 효과적으로 높일 수 있습니다. 한편, 훈련 중 특정 혼합 읽기/쓰기 작업의 경우 엔진은 혼합 읽기/쓰기 시나리오에서 시스템 성능이 영향을 받지 않도록 추가 최적화도 수행합니다.

다양한 최적화의 테스트 결과에 따르면 소프트웨어만으로도 파일 양이 증가하는 동안 안정적인 성능을 유지할 수 있습니다. 그림 1에서 볼 수 있듯이 파일 수가 1억 개에서 80억 개로 점차 증가할수록 QPS(초당 쿼리) 및 지연 시간 성능이 54% 범위 내에서 변동했습니다.

하드웨어

위에서 설명한 바와 같이 HDD는 고성능 스토리지 솔루션에 대한 몇 가지 과제를 제시합니다. SSD는 탐색 시간이나 회전 지연이 거의 없기 때문에 HDD에 비해 IOPS 성능이 높습니다. Baidu AI Cloud는 인텔® Optane™ SSD와 인텔® QLC 3D NAND SSD 기술의 조합을 사용하여 ABC Storage 올플래시 개체 스토리지 솔루션의 핵심 하드웨어를 구성합니다. 인텔 Optane SSD는 혁신적인 인텔® 3D XPoint™ 스토리지 미디어를 특징으로 하며 고급 시스템 메모리 컨트롤러, 인터페이스 하드웨어 및 소프트웨어 기술을 통합하여 짧은 대기 시간과 높은 안정성을 제공합니다. Baidu 솔루션은 다음 장치를 사용합니다.

Intel® Optane™ SSD DC P4800X가 캐시, MDS, 로그 시스템과 같은 핵심 스토리지 시스템 영역에 배포됩니다. 이 장치는 최대 550,000 IOPS의 임의 읽기/쓰기 용량과 10µs 미만의 읽기/쓰기 대기 시간을 제공하므로,5 다중 사용자 및 높은 동시성 시나리오에서 솔루션이 보다 효과적으로 작동할 수 있습니다. 한편, DWPD(Drive Writes Per Day) 성능은 수명을 연장하고 더 높은 경제적 가치를 보장합니다.

QLC 기술을 기반으로 하는 Intel® SSD D5-P4320은 대용량 데이터 스토리지를 제공합니다. 인텔의 64단 3D NAND 기술은 대용량 데이터의 저장 요구 사항을 적절하게 충족하기 위해 최대 7.68TB의 단일 QLC SSD 디스크 용량을 지원합니다. 또한 최대 427,0007의 임의 읽기 IOPS를 가지며 인텔® 제온® Gold 6142 프로세서와 함께 사용하면 AI 훈련과 같은 애플리케이션 시나리오에서 "Write Once, Read Many"(WORM) 성능 요구 사항을 충족하는 데 특히 적합합니다. 새로운 솔루션에 사용된 Intel SSD D5-P4320은 대용량 스토리지의 기본 요건을 효과적으로 충족합니다.

ABC 스토리지 솔루션에서 각 스토리지 서버는 30TB 용량에서 15KB 파일 최대 20억 개의 총 파일 스토리지 용량을 제공하는 4개의 SSD와 함께 배포됩니다. 더 중요한 것은 인텔 QLC 3D NAND SSD의 가격/성능 비율 덕분에 이 SSD 조합이 솔루션의 고성능을 보장하는 동시에 시스템의 총 소유 비용(TCO)을 효과적으로 낮출 수 있다는 것입니다. Baidu 테스트에 따르면 Baidu AI Cloud 고성능 올플래시 솔루션은 TCO를 60%까지 낮출 수 있습니다.6

결과

Intel의 지원으로 Baidu AI Cloud 팀은 ABC Storage 올플래시 스토리지 솔루션의 성능에 대한 자세한 평가 및 측정을 수행했습니다. 그림 2는 5대의 서버로 구성된 클러스터를 포함하는 벤치마크 테스트 프레임워크를 보여줍니다. 각 서버는 2개의 인텔® 제온® Gold 6142 프로세서와 256GB 메모리로 구성되었습니다. 750GB 인텔 Optane SSD DC P4800X 1개와 7.68TB 인텔 SSD D5-P4320 드라이브 4개가 사용되었습니다. 시스템은 40GbE 네트워크를 사용하여 컴퓨팅 플랫폼에 연결했습니다.

테스트 결과 인텔 Optane SSD와 Intel 3D NAND QLC SSD 기술의 조합은 AI 훈련 애플리케이션 시나리오를 위한 스토리지 시스템 성능 요구 사항을 적절하게 충족하는 것으로 나타났습니다. 표 1은 기본 ABC 스토리지 버전의 성능 결과를 보여줍니다.

미래 전망

Baidu AI Cloud ABC 전략의 중요한 실용적 결과물 중 하나인 ABC 스토리지 고성능 올플래시 개체 스토리지 솔루션은 스토리지 성능과 크기가 개선되어, AI 훈련, 빅 데이터 분석, 고성능 컴퓨팅과 같은 프라이빗 클라우드 애플리케이션 시나리오를 강력하게 그리고 안정적으로 지원했습니다.

인텔의 제품과 기술은 솔루션 성공의 중요한 요소입니다. 앞으로 양사는 기존 솔루션의 성능을 최적화하는 동시에 더 많은 인텔 제품과 기술을 통합하기 위해 파트너십을 계속하여 체결할 계획입니다. 또한 올플래시 고성능 개체 스토리지 솔루션을 더 많은 애플리케이션 시나리오로 확장하여 대규모 데이터를 IT 기술 개발과 기업 디지털화라는 혁신을 추진할 원동력으로 활용할 계획입니다.

Baidu AI Cloud 솔루션의 장점

  • ABC Storage 고성능 개체 스토리지 엔진은 AI 훈련 및 고성능 컴퓨팅과 같은 애플리케이션 시나리오를 위해 통합된 개체 스토리지 인터페이스를 제공하여 파일 수량의 급격한 증가에도 안정적인 성능 출력을 유지할 수 있습니다.
  • ABC 스토리지 고성능 개체 스토리지 엔진은 표적 최적화 프로세스를 통해 스토리지 시스템이 우수한 성능을 유지하도록 지원합니다. 대용량 데이터에는 '읽기/쓰기', WORM 및 '혼합 읽기/쓰기' 시나리오가 요구됩니다."
  • ABC 스토리지 올플래시 개체 스토리지 솔루션은 Intel® Optane™ SSD와 Intel® QLC 3D NAND 기술 기반 Intel® SSD의 조합을 통해 TCO를 대폭 절감하면서 고성능을 유지할 수 있습니다.

    PDF 다운로드

Baidu ABC 스토리지: 개체 스토리지 재정의