차세대 Hadoop 스토리지: 성능 및 복원력을 위한 BlueField-3 및 CSAL

요약문: 기존 Hadoop 스토리지는 최신 빅데이터 워크로드의 성능 및 리소스 효율성에 과제가 있습니다. 이 포스터에서는 BlueField-3 및 Solidigm CSAL 소프트웨어로 구동되는 솔루션을 소개하여 3방향 복제, 삭제 코딩(EC) 및 RAID를 통해 우수한 처리량, CPU 오버헤드 감소 및 강력한 데이터 보호를 제공하고, 확장 가능하고 안전한 데이터 관리를 보장합니다.

포스터의 전체 버전을 보려면 여기를 방문하십시오. 

섹션 1

BlueField-3 및 Solidigm CSAL을 사용한 Hadoop 스토리지 아키텍처

기존 Hadoop 스토리지 아키텍처와 BlueField-3 + CSAL Hadoop 아키텍처 비교 그림 1. 기존 Hadoop 스토리지 아키텍처와 BlueField-3 + CSAL Hadoop 아키텍처 비교

BlueField-3 + CSAL 솔루션을 채택하여 3계층 Hadoop 스토리지 아키텍처를 재구성함으로써 다음과 같은 이점을 얻었습니다:

  1. BlueField-3의 하드웨어 컴퓨팅 리소스를 활용하여, Solidigm의 CSAL 소프트웨어는 EC, RAID, 및 다중 사본과 같은 다양한 데이터 보호 백업 메커니즘을 지원합니다.
  2. 기존 아키텍처 는 서버 3계층과 스위치 2계층으로 구성되어 있었으나, 서버 2계층과 스위치 1계층으로 압축되어 저장된 데이터의 읽기/쓰기 지연 시간을 크게 줄였습니다.
  3. 스토리지 관련 컴퓨팅 리소스를 BlueField-3로 오프로드하면 CPU 컴퓨팅 리소스가 절약되어 CPU가 Hadoop 계산에 보다 효과적으로 집중할 수 있습니다.

섹션 2

기존 3중 복제

기존 3중 복제 스토리지 아키텍처와 BlueField-3 + CSAL 스토리지 아키텍처 비교 그림 2. 기존 3중 복제

높은 신뢰성: 3개의 사본으로 내결함성을 보장합니다.

체인 복제: Datanode를 통해 데이터가 순차적으로 흐르므로 지연 시간이 증가합니다.

ACK 오버헤드: 다단계 확인 응답은 복잡성과 지연 시간을 추가합니다.

BlueField-3+ CSAL 이 적용된 활성/백업 아키텍처

BlueField-3+ CSAL이 적용된 활성/백업 아키텍처 그림 3. Bluefield-3+CSAL 활성/백업 아키텍처

간소화된 워크플로: 하나의 BlueField-3 내부에서 데이터를 직접 복제합니다

향상된 성능: 동서 트래픽이 없고, 복제 단계가 줄어들며, 지연 시간이 감소합니다.

고성능 시나리오에 최적화: 지연 시간에 민감한 워크로드에 이상적입니다.

 Datanode 장애 발생 시 백업 노드로의 신속한 장애 조치를 가능하게 하려면 추가 관리 플레인 메커니즘이 필요합니다.

섹션 3

에코시스템

훈련 데이터 세트를 활용한 학습 프레임워크 및 새로운 데이터를 이용한 추론 모델.
데이터 사용자
데이터 레이크 엔진
데이터 레이크 스토리지 그림 4. 훈련 및 추론 모델을 위한 에코시스템

섹션 4

성능 및 CPU 비교

  • 3% 성능 개선
  • CPU 리소스 사용률 20%
순차 4k 쓰기 및 랜덤 4k 쓰기에 대한 LVM과 BlueField-3 + CSAL의 처리량 및 CPU 비교. 그림 5. 처리량 및 CPU 비교 LVM 대 BlueField-3 + CSAL
  LVM(MiB/s) BlueField-3+CSAL(MiB/s)
순차 4K 쓰기 2333 7697
랜덤 4K 읽기 6863 18712

표 1. 처리량 비교 LVM 대 BlueField-3 + CSAL

 

  LVM(코어) BlueField-3+CSAL(코어)
순차 4K 쓰기 6 1
랜덤 4K 읽기 5 1

표 2. CPU 사용량 LVM 대 BlueField-3 + CSAL

 

섹션 5

 

CSAL RAID5F와 MDRAID 비교

 KIOPS에서 CSAL RAID5F와 MDRAID 비교 그림 6. CSAL RAID5F와 MDRAID – IOPS 비교
GiB/s 기준 CSAL RAID5F와 MDRAID 비교 그림 7. CSAL RAID5F와 MDRAID – 처리량 비교

CSAL은 기능이 풍부하고 견고하며 QLC 친화적인 RAID 솔루션을 제공하여 고밀도, 고성능 배포 가능

1. RMW 오버헤드 없음

2. 내장된 쓰기 홀 보호

3. 여러 코어에 걸쳐 확장

4. 저널이 있는 MDRAID 대비 4배~20배 더 우수한 성능

5. SSD 내구성 향상

섹션 6

TCO 분석

솔루션 A: BlueField-3 + CSAL와 솔루션 B 비교: LVM 데이터 노드

솔루션 A: BlueField-3 + CSAL와 솔루션 B 비교: LVM 데이터 노드의 CAPEX와 TCO 비교 그림 8. 솔루션 A: BlueField-3 + CSAL와 솔루션 B 비교: LVM 데이터 노드의 CAPEX와 TCO 비교

솔루션 A(BlueField-3 + CSAL)은 솔루션 B와 비교했을 때 컴퓨팅 노드에서 서버를 재사용하고 스토리지 관련 연산을 BlueField-3로 오프로드하여 데이터 센터 공간과 전력을 절약합니다.

그림의 3노드 예를 보면 솔루션 A는 TCO CAPEX에서 50% 이상을 절감합니다.

여기에서 DPU 네이티브 유연한 스토리지 아키텍처에 대해 읽어보십시오


저자 소개

웨인 가오(Wayne Gao)는 Solidigm의 수석 엔지니어 겸 솔루션 스토리지 아키텍트입니다. 그는 경로 탐색에서 상용화에 이르기까지 Solidigm의 CSAL(클라우드 스토리지 가속화 계층)을 담당했습니다. 웨인은 20년 넘게 스토리지 개발자로서 경력을 쌓아 왔으며 미국 특허 출원/승인 4건을 보유하고 있으며, 발표된 EuroSys 논문의 저자이기도 합니다.

보 리(Bo Li)는 Solidigm의 수석 스토리지 솔루션 설계자입니다. 여러 조직에서 20년 이상 시스템 설계 및 개발 경험을 쌓았고, 전문 분야는 네트워크 및 스토리지 솔루션의 성능 최적화입니다.  최근 몇 년 동안 Bo는 비휘발성 스토리지 기술의 업계 전반 채택을 높이는 데 노력을 집중했습니다.

마리우스 바르차크(Mariusz Barczak)는 Solidigm의 수석 엔지니어입니다. 그는 13년 이상의 경험을 바탕으로 스토리지 소프트웨어 및 스토리지 솔루션에서 혁신을 찾아왔습니다. 그의 특별한 전문 지식은 캐싱 솔루션, 소프트웨어 정의 스토리지, 가상화 및 스토리지 분석입니다. 마리우스는 수많은 특허를 보유하고 있으며 오픈 소스 커뮤니티에서 활발히 활동하고 있습니다. 그는 현재 클라우드 스토리지 가속 레이어(CSAL)를 위한 Solidigm 팀을 이끄는 데 주력하고 있으며, 이 레이어는 Solidigm SLC SSD를 Solidigm QLC SSD와 같은 다른 스토리지 구성 요소와 결합한 혼합 미디어 솔루션을 제공하여 효율적이고 내구성 있는 스토리지를 제공합니다.