공유

게시 March 5, 2024

저자 Solidigm Team

기사

데이터 활용: AI 데이터 파이프라인을 가속화하기 위한 최적화된 스토리지

AI 필드 데이 2024

Intro to how Solidigm is partnering with Supermicro to advance the role of AI in meeting customer needs

솔리다임이 Supermicro와 협력하여 AI 데이터 파이프라인에 대한 고객 요구 사항을 충족하기 위한 AI 스토리지의 역할을 개선하기 위해 어떻게 하는지 Supermicro의 스토리지 개발 이사 Wendell Wenjen과 Supermicro의 제품 스토리지 이사인 Paul McLeod가 소개하는 내용을 알아보십시오.

이 AI 필드 데이 비디오에서 Wendell과 Paul은 AI 사용을 위한 과제와 솔루션과 고밀도 스토리지가 이러한 문제를 해결하는 데 어떻게 도움이 되는지 논의합니다. 또한 AI 데이터 파이프라인의 다양한 단계를 처리할 수 있는 대용량 스토리지의 필요성을 강조하고 솔리다임 SSD가 이러한 문제를 해결하고 스토리지 솔루션을 제공하는 데 어떻게 도움이 되는지 이야기합니다.

여기에서 솔리다임 SSD와 AI 솔루션에서의 역할에 대해 자세히 알아보십시오

 


 

 

비디오 대본

본 대본은 명확한 이해를 돕기 위해 편집되었습니다.

Wendell Wenjen, Supermicro 스토리지 시장 개발 이사, Supermicro의 스토리지 제품 이사 Paul Mcloed가 강연합니다.

Wendell Wenjen: 솔리다임에 감사드립니다. AI 필드 데이에 우리를 초대해 주셔서 감사합니다. 당사는 당사의 스토리지 서버 및 GPU 가속 서버에서 솔리다임 SSD를 사용합니다. 그래서 Paul은 그것에 대해 이야기할 것입니다. 저는 Wendell Wengen입니다. 저는 Supermicro의 스토리지 시장 개발 이사입니다.

당사의 스토리지 제품 이사인 Paul McLeod을 소개합니다. 오늘 우리는 몇 가지 과제에 대해 이야기할 것입니다. 이제 우리는 집중하고 있습니다. 오늘 아침 우리는 소프트웨어에 대해 많이 이야기했습니다. 플래시를 사용한 미디어에 대해 이야기했습니다. 이제 이 AI 교육을 모두 실행하는 시스템, 특히 이 분야의 스토리지 부분에 대해 이야기할 것입니다.

따라서 AIOps 및 MLOps와 관련된 스토리지의 문제, 일종의 기존 스토리지 접근 방식과 관련된 문제, 그리고 여러 멀티 페타바이트 범위의 여러 고객을 대상으로 배포한 접근 방식을 살펴보고 이것이 어떻게 작동하는지 이야기할 것입니다.

Supermicro에 대해 조금만 설명하겠습니다. 당사에 대해 들어 본 적이 없다면, 당사는 서버, 스토리지, GPU 가속 서버 회사 및 네트워킹을 제공합니다. 그리고 이 모든 것을 랙, 완전히 통합된 랙에 제공합니다. 여기에서 5마일 밖에 떨어져 있지 않습니다. 현재 산타 클라라에 위치하고 있습니다. 우리는 약 10분 거리에 있는 산호세에 있으며, 랙 통합 분야에서 많은 제조 작업을 하는 본사를 두고 있습니다.

당사의 주목할만한 점 중 하나는 매출이 작년에 비해 올해 두 배 정도 늘었다는 것입니다. 저는 서버 및 스토리지 사업 분야에서 20년 동안 근무 했습니다. 제가 그런 모습을 본 유일한 때는 제가 Intel 서버 그룹에 합류했던 96년이었습니다. 그것은 막 시작되었습니다.

펜티엄 프로를 사용하여 약 1년 동안 0에서 10억 달러로 증가했습니다. 따라서 모든 시스템 공급업체가 솔리다임과 같은 미디어 회사 및 파일 및 오브젝트 스토리지 솔루션을 제공하는 소프트웨어 회사와 함께 AI를 활성화할 수 있는 정말 흥미로운 시기입니다.

우리에 대해 조금 더 자세히 설명하겠습니다. 알다시피, 당사는 이곳 실리콘 밸리에서만 제조하는 것이 아닙니다. 또한 대만, 네덜란드 및 다른 여러 지역에서도 매월 5000개의 소프트웨어 테스트를 거친 통합 케이블 업 랙을 제공할 수 있는 역량을 갖추고 있습니다. 고객이 배포하는 근처 위치에서 이를 수행할 수 있습니다. 따라서 이러한 시스템을 말 그대로 주문한 때 부터 몇 주 안에 실제로 제공할 수 있습니다.

청중 회원 Ray Lucchesi: Wendell 씨,1년 내에 수익을 두 배로 늘리는 데 어떤 기여를 하셨습니까? 무엇이 그 추진력입니까?

Wenjen: 네, 흥미로운 질문입니다. 그래서 몇 분기 전, 약 2분기 전에 우리는 수익의 절반 이상이 AI와 관련된 수익 창출이라고 발표했다고 생각합니다.

물론 우리는 많은 스토리지와 많은 서버를 만듭니다. 우리는 서버 회사로 시작했습니다. 따라서 오늘 우리가 모두 이야기하고 있는 AI 배포 추세는 전통적 성장뿐만 아니라 우리의 성장을 주도하고 있습니다.

우리는 CSP 및 엔터프라이즈 시장에 판매하고 있으며 제가 언급한 모든 제품의 전 세계적 채널 비즈니스를 운영하고 있습니다. 그러나 우리 회사의 경우 특이하게도 직원의 약 절반이 시스템 설계 개발을 담당하는 엔지니어라고 생각합니다. 그리고 우리는 생성 AI 및 대규모 언어 모델 플랫폼을 제공하는 최고의 회사입니다.

매년 500% 성장하고 있으며, 이는 정말 놀라운 일입니다. 우리 회사에 대해 조금 더 자세히 설명하겠습니다. 여러분은 우리가 빌딩 블록 솔루션이라고 부르는 제품을 개발하는 매우 독특한 방법을 가지고 있다는 것을 알고 있습니다.

우리는 다양한 구성에서 재사용할 수 있는 이러한 모듈식 구성 요소를 개발합니다. 마더보드, 섀시, 전원 공급 장치를 생각해 보세요. 실제로는 그보다 더 복잡하지만 컴퓨팅, GPU 가속 컴퓨팅을 위한 매우 다양한 맞춤형 스토리지 솔루션으로 조립될 수 있습니다.

이것이 제품 개발의 토대입니다. 우리는 30년 동안 이것을 해왔습니다. 그 다음 이를 받아들여 지난 10년 동안 우리는 그것을 완전히 통합된 랙 솔루션으로 제공하는 데 중점을 두었습니다.

42U 높이의 랙은 몇몇이 나가서 조립할 수 있도록 상자에 담겨 배송되었습니다. 전원을 켜면 첫날부터 바로 실행되는 겁니다.

이것이 바로 우리의 초점이었습니다. 우리는 많은 대규모 고객 및 CSP를 지원하고 판매하지만, 많은 기업을 채널에 지원하고 판매하며 다양한 솔루션을 제공합니다. 곧이어 언급할 세 번째 이야기는 우리의 CEO 및 설립자에게 매우 가깝고 소중한 것입니다. 바로 녹색 컴퓨팅입니다.

우리는 우리가 사용하는 에너지가 가능한 한 최대로 효율적이기를 원합니다. 고객이 필요할 경우 우리가 제공하는 것 중 하나가 수냉식 시스템이라는 것을 의미하며, 이 시스템은 데이터 센터에서 실제로 훨씬 더 효율적입니다. 우리는 자체 전원 공급 장치를 개발합니다. 사실, 우리가 경쟁하는 모든 서버 및 스토리지 회사들 중에서 독특하게 우리는 전원 공급 장치, 보드 및 전체 시스템을 설계, 개발 및 제조하는 유일한 회사입니다. 저는 이 사업에 오랫동안 종사했습니다. 그리고 우리는 그것을 해냈습니다. 제가 근무한 회사는 많은 대형 OEM을 위해 그것을 수행했습니다

청중 회원 Donnie Berkholz:좀 더 명확히 하자면, "독특하다"고 말했는데, 그 다음에는 "거의 그렇다"고 말하네요. 독특합니까, 아니면 희귀합니까? 

Wenjen: 자체 제조를 수행하는 다른 주요 OEM은 알지 못한다고 말할 수 있습니다. 그들은 모두 ODM 및 계약 제조업체를 이용하고 있습니다. 그리고 저는 그들 중 일부를 위해 일했기 때문에 그 시장에 익숙합니다.

청중 회원 Ben Young1: 소유권 모델은 어떤 모습인가요? 지난 몇 년 동안 우리는 많은 하드웨어 제조업체가 이러한 "서비스형" 모델을 지향하는 것을 보아 왔습니다. Supermicro에는 이 분야에서 활약할 무언가가 있습니까? 아니면 현재 이 시점에서 모든 종류의 자본 지출이 있습니까? Wenjen: 네, 우리는 고객에게 장비를 운송하고 제공하고 있습니다.

청중 회원 Ben Young 1:하지만 그들은 그냥 사버리지 않나요? 아니면 "서비스로서"가 있습니까? 저는 단위 요금제로 구독하고 용량이 증가함에 따라 더 많은 장비를 연결할 수 있는 HPE GreenLake 또는 Pure as a Service를 생각하고 있습니다.

Wenjen: 네, 우리는 그런 것을 발표하지 않았습니다. 제 말은, 어떤 면에서 CSP인 우리 고객이 하는 일과 실제로 경쟁하는 경향이 있다는 뜻입니다.

이제 AI 및 머신 러닝을 위한 스토리지에 대한 주제로 넘어가겠습니다. 우리 파트너 WEKA는 1500 명의 고객을 대상으로 설문 조사를 실시하고 고객 성공을 가로막는 주요 요인이 무엇인지 조사했습니다.

상상할 수 있듯이 컴퓨팅 성능은 한 영역입니다. 데이터 유출과 이러한 공개 모델을 포함하는 보안은 또 다른 영역입니다.

그러나 가장 큰 영역은 실제로 데이터 관리와 관련되어 있으며, 데이터를 수집하고(데이터에 대한 세부 사항을 수행하며) 교육 및 추론을 위해 해당 데이터를 GPU 클러스터에 제공합니다. 솔리다임은 AI 데이터 파이프라인에 대해 이야기했습니다. 여기서 반복 없이 언급하고 싶은 것은 우리에겐 AI 데이터 파이프라인의 각 단계에 초점을 맞춘 제품이 있다는 것입니다. 그리고 수집 과정에서 고객은 일반적으로 지금으로부터 1년,2년 후 자신이 수행 중인 모델에 어떤 종류의 데이터가 필요할지 실제로 알지 못한다는 사실을 우리는 알고 있습니다. 따라서 그들은 종종 많은 디지털 데이터, 고객 서비스 데이터 그리고 제조 데이터를 수집해야 합니다. 이 모든 것이 미래에 가치 있을 수 있습니다. 따라서 큰 데이터 레이크가 필요합니다. 이는 우리가 논의한 오브젝트 스토리지를 사용하는 확장된 비정형 스토리지에 가장 적합합니다.

우리는 이러한 유형의 스토리지 시스템의 기초가 될 수 있는 이중 프로세서가 있는 매우 고용량 90베이 디스크 시스템을 보유하고 있습니다. 정리 및 변환 단계에서는 라벨링, ETL과 같은 것들이 있습니다. 이쯤에서 제 경험을 얘기하면, 저는 다른 회사에서 개념 증명 프로젝트에 참여했습니다. 우리는 기계 학습을 사용하여 웨이퍼의 전자빔 현미경 데이터에 대한 지도 학습 모델을 개발했습니다. 우리는 결함을 찾고 있었습니다. 그리고 라벨링 되었기 때문에 결함이 어떻게 생겼는지 알려줄 사람이 필요하다는 것이 밝혀졌습니다. 결함이 있는 E-빔 스캔과 결함이 없는 스캔이 어떻게 생겼는지 알려줄 수 있는 엔지니어는 회사에서 소수에 불과합니다.

저에게 그들은 모두 똑같아 보였지만 50,000개의 이미지를 보고 레이블을 지정하는 데 관심이 없었으며 시간이 많이 걸리고 Amazon에 아웃소싱하지 않을 것입니다. 이것은 매우 독점적인 데이터입니다.  그러므로 플래시를 사용하거나 디스크와 플래시를 조합하여 사용할 수 있는 시스템을 보유하고 있는 이 정리 및 변환 프로세스는 모델의 유형에 따라 실제로 생각해야 할 중요한 영역입니다. 그리고 교육 및 평가 영역에서 제가 언급하는 것은 물론 교육 데이터가 있다는 것입니다.

레이블이 지정되거나 지정되지 않을 수 있습니다. 그러나 모델 개발의 모든 주기에 대해 해당 데이터를 유지하고 설명 가능한 AI를 위해 해당 모델을 배포하는 데 사용된 모든 데이터를 유지해야 합니다. 그렇겠지요? 이 모델을 배포하고 가끔 발생하는 이상한 결과를 얻기 시작하면 해당 모델을 생성한 입력 데이터를 추적할 수 있어야 하기 때문입니다. 그리고 물론 교육에 사용되지 않은 모델을 검증하기 위한 별도의 데이터 세트도 필요합니다.

따라서 이 모든 것은 해당 단계에서 매우 큰 용량의 스토리지가 필요하다는 것을 실제로 말하고 있습니다. 그리고 솔리다임이 이야기했듯이 추론에서는 많은 작업이 에지에서 수행될 수 있습니다.

우리는 에지 환경에 실제로 최적화된 제품 포트폴리오에 대해 이야기할 것입니다. 따라서 교육 파이프라인에서 볼 수 있는 것 중 하나는 이것을 I/O 블렌더 효과라고 부르는 것입니다. 여기 첫 번째 파이프라인에서 AI 데이터 파이프라인의 단계를 볼 수 있지만, 물론 이것이 자주 실행되는 유일한 파이프라인은 아닙니다. 그렇죠? 아마도 오프셋된 두 번째 파이프라인이 있을 수 있습니다.

이제 이중 I/O 프로파일을 실행하고 있습니다. 그리고 나중에 우리는 이러한 파이프라인이 많이 있는 혼합 I/O 프로파일을 살펴볼 것입니다. 이는 여러 데이터 과학자가 서로 다른 모델을 실행하거나 동일한 모델의 다른 버전을 실행하거나 또는 여러 당사자가 데이터에 액세스하는 다중 테넌트 환경에 있기 때문일 수 있습니다. 따라서 솔리다임이 이야기한 다양한 I/O 프로파일이 혼합되어 있습니다. 우리 파트너인 WEKA가 배포한 솔루션의 대시보드를 통해 수집한 일부 데이터에서 볼 수 있는 것은 매우 작은 IO의 조합입니다. 이는 읽기와 쓰기 사이로 분할되는 많은 4K IO입니다. 또한 몇 가지 큰 블록 IO도 볼 수 있습니다. 따라서 배포에 사용하려는 경우 기존 NAS 솔루션에 적합하지 않은 매우 작은 IO의 혼합은 실제로 문제가 되며 이러한 유형의 스토리지를 위해 특별히 설계된 솔루션이 실제로 필요합니다. 청중 회원 Ray Lucchesi:  이것이 모든 파이프라인이 동시에 실행될 때 표시되는 혼합 IO 패턴입니까?

Wenjen: 그건 그것의 일부입니다. 여기에 포함하지 않은 데이터가 훨씬 더 많이 있지만, 이것은 일종의 대표적 데이터입니다.

청중 회원 Ray Lucchesi:  너무 높다는 것은 놀라운 일입니다. 그리고 쓰기가 너무 작습니다. 

Wenjen: 네. 제 말은, 이것은 수집된 것이며 무엇이 그 원인인지 말하기는 정말 어렵습니다. 그러나 이것은 고객에게서 비롯되었습니다. 

청중 회원 Ray Lucchesi:  확실히 체크포인팅이 진행되고 있지 않습니다. 그것은 다른 것입니다. 

Wenjen: 체크포인팅이 되고 있습니다. 아카이빙이 있습니다. ETL이 진행되고 있습니다. 따라서 요점은 이러한 IO 패턴이 어떻게 될지 미리 예측하는 것은 매우 어렵다고 생각합니다. 따라서 추측하려고 노력하고 틀릴 가능성이 있는 것보다 다양한 IO 패턴을 설계하는 것이 더 좋습니다. 그리고 이점을 우리가 이야기할 것입니다. 이제 스토리지 솔루션에 대해 강연할 Paul McLeod에게 이 문제를 넘기겠습니다.

Paul Mcloed: 감사합니다, Wendell. 네, 여기 화면의 이 데이터에 대해 말하자면, 이것은 실제로 하나의 하위 세트입니다. 이것은 대부분의 사람들이 빅 데이터에 대해 생각할 때 생각하지 않는 것입니다. 대개는 '아, 이게 다 대용량 파일이구나'라고 생각합니다. 우리는 이것들을 순차적으로 움직일 것인데 바로 이것이 블렌더 효과가 됩니다.

그리고 그것은 우리의 파트너 Weka가 실제로 초기에 시작한 것 중 하나입니다. 그리고 파트너의 관점에서 볼 때 그들은 소프트웨어 정의 스토리지 파트너입니다. 그러나 이러한 환경에 제공하려는 스토리지 솔루션의 전체 목표는 워크플로우의 모든 다양한 단계와 해당 환경에서 동시에 발생하는 모든 다른 파일 및 파일 크기에 대해 작동할 수 있는 것입니다. 그리고 WEKA는 그러한 면에서 훌륭한 일을 했습니까? 5~6년 전에 우리가 겪었던 것 중 하나는 NVMes가 나왔을 때 였고 우리는 NVMes를 보았습니다 - 이것은 제 경력에서 처음이었으며 저는 25년 동안 스토리지에 있었습니다.

스토리지는 프로세서보다 빠르지요? NVMe에서 데이터를 이동할 때 하나의 NVMe도 프로세서 속도를 앞섰습니다. 따라서 이러한 플래시 장치의 기능이 떨어지기 전에 프로세서가 부족할 것입니다. 따라서 이러한 종류의 데이터 세트와 이러한 종류의 성능은 확장하려면 매우 특별한 아키텍처가 필요합니다. 하나의 NVMe로 작업할 수 있고 뛰어난 성능을 얻을 수 있습니다. 1000 NVMes로 작업하는 경우, 메타데이터와 관련된 몇 가지 문제에 부딪힐 것입니다. 저는 여러분이 "이봐, 더 빠른 것을 줘봐"라고 말할 때 일반적으로 생각하지 않는 것들에 대해 몇 가지 문제를 겪을 것입니다. 그렇죠? “더 빠른 파이프를 줘.

더 빠른 장치를 줘" 글쎄, 그런 종류의 것이 WEKA 구조에서 잘 고려되었다고 생각하는 것 중 하나입니다. 잘 고려한 또 다른 부분은 S3/오브젝트 저장소로의 통합이었습니다. 따라서 플래시든 하드 드라이브든 개체 저장소를 사용하면 해당 데이터를 파일 기반 애플리케이션에서 클라우드로 또는 FIFO를 제공해야 한다는 같은 종류의 압력이 없는 환경의 어느 곳으로나 이동할 수 있으며 그 곳은 블록 장치라고 할 수 있습니다. GPU 워크로드, 특히 NVIDIA의 경우 핵심적인 또 다른 부분은 GPUDirect 스토리지입니다.

따라서 GPUDirect 스토리지는 기본적으로 스토리지가 지원하는 경우 애플리케이션에 GPU 메모리와 직접 연결되는 RDMA 스토리지를 제공합니다. 따라서 CPU 메모리를 우회하여 GPU로 작업합니다.

이것으로 프로세스의 모든 부분에서 대기 시간이 추가되기 때문에 다시 대기 시간 단계 중 하나가 됩니다. 그리고 이를 확장하려고 하면 문제에 부딪칩니다. 따라서 Supermicro는 3.5인치 스토리지부터 고성능 플래시까지 해당 아키텍처에 대한 포트폴리오 측면에서 좋은 위치에 있습니다. 그리고 우리의 포트폴리오는 매우 방대하기 때문에 우리는 다중 노드, 블레이드 시스템을 보유하고 있습니다.

따라서 환경에 가장 적합한 바이트 크기를 사용하여 스토리지 공간을 만들 수 있다는 측면에서 볼 때 우리는 이를 랙 수준에서 제공하고 본질적으로 고객을 위한 환경을 조정할 수 있습니다. 왜냐하면 모든 고객이 superPOD를 구매하는 것은 아니기 때문입니다. 그렇지 않나요? 어떤 사람들은 랙 수준의 AI 통합을 하고 있는데, 다중 노드와 같은 것이 우리의 페타스케일 라인보다 더 나을 수도 있습니다. 따라서 플래시 측면에서 볼 때 우리는 멀티 노드로 시작하고 페타스케일로 끝납니다.

그리고 하드 드라이브 측면에서 우리는 4U 인클로저에 최대 90개의 베이를 갖춘 3.5인치 스토리지 서버로 구성된 방대한 포트폴리오를 보유하고 있습니다. 따라서 3.5인치 스토리지를 이미 구현했는지 여부에 따라 달라집니다 … 저는 이것이 솔리다임 [프레젠테이션] 중 하나에 나온 질문 중 하나라고 생각합니다. 그것은 그렇습니다, 그린필드를 갖고 올 플래시를 배포하면 좋을 것입니다. 모든 것을 메모리에 저장하면 정말 좋을 것입니다. 그러나 예산 문제가 있습니다.

이것이 그린필드 프로젝트인지 아닌지 여부에 달려 있습니다. 따라서 우리 고객은 이미 3.5인치 스토리지에 있는 데이터 세트를 가져오는 경우가 많습니다.

따라서 그들이 이 그린필드 환경으로 이동하는 능력은 어려울 수 있으며 시간이 걸릴 것입니다. 그린필드 프로젝트와 자금력이 풍부한 다른 회사도 있는데 그들은 올플래시를 배포할 것입니다. 그리고 솔리다임이 계층형 플래시 장치를 사용하는 것의 좋은 점 중 하나는 여기에 더 낮은 비용의 플래시를 넣을 수 있고 더 높은 성능의 플래시를 GPU 애플리케이션에 더 가깝게 넣을 수 있다는 것입니다.

청중 회원 Ray Lucchesi:  그래서, Paul, 이것들은 WEKA 클러스터의 노드입니까? 이것이 내가 읽은 대로입니까? 맞나요?

Mcloed: 네. 그렇습니다. 플래시 스토리지의 관점에서 볼 때, 이전 슬라이드로 돌아가면 기본적으로 3.5인치까지 다중 노드가 있다는 것을 알 수 있습니다. 일반적으로 3.5인치는 해당 S3 스택에 들어갑니다. 그렇죠? 3.5인치 드라이브에서 무작위로 데이터를 가져오려는 GPU를 가지고 싶지 않을 것입니다. 그러나 WEKA의 경우 이러한 모든 파일에 액세스할 수 있습니다.

기본적으로 파일로 꺼낼 수 있는 이 S3 스토리지 장치 또는 클라우드에 파일 핸들이 있는 다른 플랫폼도 있습니다. 그러면 플래시에 하이드레이팅될 것입니다. 그렇죠? 첫 번째 작업은 기본적으로 이 S3에서 나와서 플래시를 하이드레이팅하고 그런 다음 내 GPU가 플래시 속도로 이것을 작동할 수 있다는 것입니다. 따라서 파이프라인에서 매우 중요한 것은 이러한 모든 요소를 다룰 수 있는 포트폴리오를 갖는 것입니다.

솔리다임 세션에서 우리가 이야기한 또 다른 핵심 요소는 이 IOT 에지였습니다. 그래서 Supermicro: 우리 사이트를 아직 방문하지 않았다면 거기로 가십시오. 우리가 얼마나 많은 서버를 보유하고 있는지 알 수 없을 것입니다. 이는 우리가 다루는 서버 및 시장 수의 극히 일부에 불과합니다.

이 슬라이드에서 제가 기본적으로 먼 가장자리를 보여주고 있는 것은 기본적으로 공장 현장에서 사용할 수 있는 팬이 없는 산업용 컴퓨터입니다. 그렇죠? 이것은 여러분이 지나쳤을 수도 있는 상자일 뿐입니다. 아마도 이 건물 중 하나에 있을 수도 있습니다. 그것은 히트싱크처럼 보입니다 그런 다음 해당 센터 중 한 곳의 통신 환경에서 사용되는 것과 같은 초대형 센터로 이동합니다.

그리고 이들 각각에는 스토리지 요소가 있습니다. 따라서 GPU는 아마도 중~대규모에서 더 많은 성능을 발휘할 것입니다. GPU가 포함된 작은 [서버]를 보유하는 경우는 매우 드물기 때문입니다. 하지만 예외를 주지는 않겠습니다. 우리는 GPU를 갖춘 매우 작은 엣지 서버와 원거리 엣지 서버를 보유하고 있습니다.

그러한 사례는 레스토랑 위치, 주문 시스템 등이 될 것입니다. 해당 데이터는 이 AI와 상호 작용합니다. 이러한 모든 위치를 보유한 회사는 해당 정보를 한곳에 모아서 실제로 분석하고 비즈니스를 개선할 수 있는 방법을 찾기 위해 어딘가에 가져가고 있기 때문입니다.

그리고 중앙에는 극 장착 아키텍처가 있습니다. 이것은 날씨에 영향을 받지 않는 플래시와 GPU를 갖춘 서버의 예입니다. 따라서 우리는 AI가 하드웨어에 관여하고 이러한 애플리케이션을 위한 하드웨어를 만드는 모든 다른 분야를 살펴보고 있습니다. 여기의 주요 이벤트로 돌아가면 AI를 위한 메인 데이터 센터 스토리지를 어떻게 수행하고 있는지 살펴볼 수 있습니다.

Supermicro는 거대한 GPU 서버 포트폴리오를 가지고 있기 때문에 AI와 AI에 대한 관심 측면에서 우리가 이렇게 큰 업틱을 가진 또 다른 이유는 우리가 GPU를 만드는 모든 제조업체의 GPU를 배포하는 측면에서 원하는 모든 폼 팩터를 가지고 있기 때문입니다. 그리고 NVIDIA 환경인 이 GPUDirect 스토리지의 경우 파트너인 WEKA가 솔리다임과 협력하여 대용량 올플래시 시스템을 개발하고 있으며 이를 고객의 위치에 맞게 조정할 수 있습니다.

마지막으로 데이터 레이크 환경에서 일반적으로 이것은 3.5인치 스토리지 배포이며 클라우드에 있을 수 있습니다. 그러나 우리는 S3 스토리지 및 고용량 S3 스토리지를 제공하는 모든 다른 파트너와 협력합니다. 따라서 일반적으로 우리의 고객은 오브젝트 스토리지에 사용하는 Scality 클러스터나 액티브 스케일 클러스터를 이미 배포하고 있으며 비즈니스의 핵심 자산을 저장하고 이러한 AI 요소를 환경에 추가하고 있습니다. 동일한 아키텍처에 대해 더 깊이 살펴보겠습니다. 따라서 우리가 제품을 제공하는 방법의 측면에서 볼 때 그것은 완전히 통합되어 있습니다. 우리는 소프트웨어와 모든 배선을 포함하여 모든 것이 포함된 랙을 배송하는 것을 선호합니다.

그리고 기본적으로 우리는 그것을 연결하고 연결한 다음 키를 고객에게 넘겨주면 고객은 개별 응용 프로그램을 사용하게 됩니다. 그러나 우리는 어떤 종류의 파트너십에도 열려 있습니다. Supermicro가 우리 자신을 차별화하는 [방법]중 하나는 고객의 요청을 매우 많이 경청한다는 것입니다. 따라서 이 예제에서는 플래시와 통신하기 위해 400G 네트워크를 사용하고 있습니다.

이 플래시는 25G 또는 100G 네트워킹을 사용하여 3.5인치 스토리지와 페어링되고 Supermicro는 자체 스위치를 사용하여 랙 수준에서 이를 제공합니다. 따라서 본질적으로 고객은 자신이 제어하기를 원하는 거의 모든 것을 제어할 수 있습니다. 우리는 OCP, 개방형 BMC 및 우리가 열려 있는 이러한 모든 것들과의 협력을 점점 더 많이 보고 있습니다. 왜냐하면 우리는 고객이 자신의 작업을 수행하는 데 필요한 것을 얻을 수 있도록 노력하고 있기 때문입니다. 이제 플래시 페타스케일 아키텍처에 대해 좀 더 자세히 살펴보겠습니다. 따라서 우리의 페타스케일 아키텍처는 창의 일각이라고 생각할 수 있습니다. 이 아키텍처는 최신 플래시 혁신을 사용하여 설계되었습니다. EDSFF에 대해 들어봤을 것입니다. 또는 EDSFF에 대해 들어 본 적이 없을 수도 있습니다.

그러나 EDSFF는 플래시 장치를 위한 새로운 폼 팩터입니다. 솔리다임은 해당 분야의 선두 주자였고 인텔도 해당 분야의 선두 주자였습니다.

그리고 우리는 처음부터 리더였습니다. 따라서 기본적으로 지난 5~6년 동안 우리는 이 기술을 갖춘 서버를 생산해 왔습니다. 이제 PCI 버스는 점점 더 빠르게 움직이고 있으며, 시대에 앞서 있기 때문에 점점 더 관련성이 높아지고 있습니다. 현재 사용 가능한 U.2 드라이브에는 연료가 부족합니다. 열 환경에서 커넥터가 작동하는 방식은 오늘날 대부분의 사람들이 배포하는 플래시가 회전 드라이브용으로 설계된 상자 안에 있기 때문에 최적화되지 않습니다. 따라서 페타스케일 아키텍처에서는 PCI 버스와 PCI 버스가 프로세서를 통해 어떻게 이동하는지 살펴보고 있습니다. 프로세서는 스토리지와 네트워킹의 중앙에 두고 네트워킹은 DPU와 같은 고급 네트워킹일 것이기 때문입니다 실제로 가속 기능이 있고 보안 프로토콜을 내장하고 있습니다. 따라서 배선 관점에서 볼 때 우리는 PCI 레인의 균형을 유지하고 싶었습니다. 따라서 저 먼 곳을 살펴보면 프로세서 환경 내에서 우리가 균형을 이루고 있음을 알 수 있습니다. 이 아키텍처에서 얻을 수 있는 이점 중 하나는 CXL이며, 차세대 메모리 기술은 EDSFF 엔클로저에도 제공되고 있습니다. 따라서 이것은 본질적으로 현재 여기에 있는 미래입니다. 그리고 모든 대규모 고객은 이것을 보고 있습니다. 왜냐하면 이것은 이는 2.U 인클로저에 최대 32개의 NVMe이므로 매우 최첨단 기술입니다. 그리고 이것은 32드라이브 엔클로저를 자세히 살펴보는 것입니다. 이것은 AMD 시스템입니다. AMD는 독특합니다. 우리는 두 가지를 나눌 수 있습니다. 더 높은 용량 측면에 더 관심이 있는 경우 실제로 32개의 NVMe가 있는 서버를 제공할 수 있습니다. 또는 16개의 드라이브가 장착된 1U 서버를 사용할 수 있습니다. 이 경우 성능은 동등할 것입니다. 따라서 기본적으로 동일한 2.U를 사용하고 16개 드라이브 장치 중 두 개를 장착하면 성능을 두 배로 높일 수 있습니다. 따라서 이것은 고객이 일반적으로 내리는 결정이며 우리는 고객이 어떻게 하고 싶은지 설명하도록 안내할 수 있습니다. WEKA와 같은 공급업체를 찾기 위한 보완책으로서의 파트너십의 일부는 이러한 시스템을 테스트 및 조정하고 동종 최고의 구성 요소를 선택하는 것입니다. 기본적으로 [우리는] 고객이 자신의 환경에 적합한 스토리지 솔루션을 쉽게 찾을 수 있도록 이러한 아키텍처를 구축합니다. 그리고 여기 1U가 있습니다. 따라서 이것은 실제로 E1 NVMe EDSFF 폼 팩터입니다. 한번 더 강조하자면 EDSFF 폼 팩터는 이 판도를 바꿀 수 있습니다. 그 공간에서 훨씬 더 많은 일이 일어나는 것을 보게 될 것입니다. 그리고 솔리다임은 제가 말했듯이 바로 그 위치에 있었습니다.

참고

[1] 청중 회원 Ben Young은 비디오 내에서 두 가지 사안/경우에서 Donnie Berkholz로 잘못 명명되었습니다. Ben의 이름은 녹음 기록에 올바르게 기재되었습니다.

 

Unlocking Your Data: Optimized Storage to Accelerate Your AI Data Pipeline