기후 시뮬레이션 NASA 센터의 고성능 컴퓨터 책임자로부터 대기 중에 에어로졸을 모델링하기 위해 NASA가 어떤 일을 하고 있는지 들어보세요. Laura는 Jeniece와 함께 적은 예산으로 HPC를 최신 사양으로 유지하기 위해 모듈형 컴퓨팅 인프라를 사용하여 과학적 요구 사항에 맞춘 슈퍼컴퓨팅 리소스를 유지하는 방식에 대해 이야기를 나눕니다. NASA에서 대기 중에 흩어져 있는 위성 및 풍선으로부터 수집한 방대한 양의 데이터는 분석과 시각화를 필요로 합니다. 이것은 고려 사항 중 스토리지가 가장 중요한 측면이라는 것을 의미합니다.
슈퍼컴퓨팅 2024로부터의 전문가들과의 더 많은 인터뷰를 보시려면 슈퍼컴퓨팅 2024에서 데이터 기반 인사이트 및 발견이 빛을 발하다(Data Fueled Insight and Discovery Shine)를 읽고 들어보세요.
Jeniece Wnorowski: 어서오세요, Laura 님. 다시 뵙게 되어 반갑습니다!
Laura Carriere: 감사합니다.
Jeniece: 지금 슈퍼 커넥트 2024에서 많은 일들이 있는데 함께해 주셔서 감사합니다. NASA에서 어떤 업무를 하시는지 간단히 말씀해 주시죠.
Laura: 네, 그러죠. 저는 NASA 센터 기후 시뮬레이션에서 고성능 컴퓨팅 책임자를 맡고 있습니다. 이것은 NASA 내에 있는 2곳의 슈퍼컴퓨팅 시설 중 하나로, 우리는 그린벨트[Maryland] 쪽에 위치하고 사실, 2개의 시설 중 더 작은 곳입니다. 지구과학이 우리 주요 그룹입니다. 천체물리학, 태양물리학, 행성과학이 포함됩니다. 우리 슈퍼컴퓨터에서 이런 것들을 다루고 모든 작업을 합니다.
Jeniece: 놀랍네요. 슈퍼컴퓨팅에 관한 모든 작업들에서 정확히 무엇을 연구하고 아니면 지금 어떤 작업에 열중하고 있는지 좀 알려 주실 수 있나요?
Laura: 지구과학 분야에서 주요 목표는 기후에 관한 연구인데, 이것은 일부 기후 변화에 관한 것도 있지만 또한 글로벌 모델링 및 동화 사무소인 GMAO 그룹은 에어로졸 작업을 많이 다루고 있습니다. 기후 모델을 실행하는 거죠. 에어로졸이 대기에서 어떻게 이동하는지에 특히 관심이 있어요. 공기 오염 또는 탄소, 질산염이나 황산염 같은 것들입니다. 과학적 시각화 스튜디오 작업을 통해 아름다운 시각화를 보여주는데 이들이 우리를 위해 하는 놀라운 작업들을 잘 보여줍니다.
Jeniece: 대단하네요. 이 에어로졸이란 것이 정말 흥미로운데요. 대기 같은 것들을 완전히 통과하는 것을 볼 수 있다는 거군요?
Laura: 맞아요. 3차원 모델이라서 전 세계에 걸쳐 이동하는 것을 볼 수 있죠. 사하라 사막의 먼지가 대서양을 건너 플로리다에 도착하는 것을 볼 수 있어요. 허리케인 바람에 빙빙 도는 것을 볼 수 있어요. 바닥에 있는 바다 소금이 보통 남극과 북극 주변의 해양에서 허리케인에 휩쓸리는 것이 보이죠. 이것을 아주 멋있게 시각화하는 작업을 해요. 발전소과 같은 것들에서 나오는 배출물도 볼 수 있습니다. 다음으로 우리 대기나 불 속으로 들어오게 됩니다.
Jeniece: 놀랍습니다. 좋아요, 말씀하신 이 모든 작업을 슈퍼컴퓨터로 하신다고 하셨죠. 좀 설명해 주시겠어요? 슈퍼컴퓨터를 특별한 이름으로 부르나요?
Laura: 우리 슈퍼컴퓨터는 ‘디스커버(Discover)’라고 부릅니다. 2006년에 설계된 거죠. 이것이 작동하는 방식은 사실 전력 공급이 제한되어 있다는 것입니다. 전력이 한정되어 있죠. 매년 자금을 받는데 전력이 다 소모될 때까지 슈퍼컴퓨터를 만들어요. 다음에 자금을 더 지원받으면 슈퍼컴퓨터의 오래된 부분을 폐기하고 새 부품을 가져옵니다. 지난 여러 해 동안 소위 확장 가능한 컴퓨터 유닛에 계속해서 부품을 더해 왔어요. 현재는 과학자들이 사용할 수 있는 약간의 14와 16, 17, 18번째를 확보했습니다. 처음에는 인텔 칩이었는데 지금은 AMD로 옮겼죠. ‘디스커버’는 테스트, 학습 및 새로운 개발을 위한 작은 CPU 포켓이 있는 CPU일 뿐입니다. ‘프리즘’이라는 훨씬 더 큰 GPU 시설이 있는데 이것에도 많은 개발을 투자했고 프리즘에서도 굉장히 흥미로운 과학적 결과를 얻었습니다.
Jeniece: 놀라워요. 그러면 스토리지는 어떤가요? 스토리지 레이어에 대해서 잘 알고 계시나요?
Laura: 우리의 모든 시스템에는 스토리지가 있습니다. 전통적인 HPC가 있는데 이것이 바로 디스커버이고 약 60페타바이트의 스토리지를 보유합니다. 엄선된 NASA 데이터 제품을 위한 중앙집중식 스토리지를 보유하고 있어요. MODIS 데이터, Landsat 데이터, MERRA-2 데이터와 같이 NASA 데이터 제품으로 잘 알려진 것들이 있습니다. 그 데이터는 또한 프리즘을 포함한 온프레미스 클라우드 환경을 통해 이용 가능하죠. 이 모든 데이터는 이러한 모든 시스템을 통해 액세스할 수 있습니다. 이것이 시스템상에서 데이터의 중복량을 줄여 줘서 새로운 과학적 발견을 위한 여유를 허용한다고 추정하고 있습니다.
Jeniece: 네, 이러한 곳에서 들어오는 방대한 양의 데이터를 받으면서 더 많은 과학적 발견을 하는군요. 예를 들면, 기후 변화가 있죠. 데이터를 받으면 그것을 어떻게 다뤄야 하는지 어떻게 알 수 있죠? 매일 어떤 것을 볼 수 있나요? 얼마 전에 Bill과 이야기를 나눴는데[Thigpen, Assistant Division Chief for High End Computing, NASA] 모든 것을 보관한다고 하더군요. 똑같이 하시나요?
Laura: 보관하기보다는 실제로 보관하기 위해 Bill의 시설인 AMES를 더 사용합니다. 하지만 데이터를 회전 디스크에 보관해서 [HDD] 과학자들이 연구할 수 있도록 하려고 합니다. 저희는 보관에 자금을 지원받지 않아서 이것은 그저 자원을 낭비하는 요인일 뿐이며, 더 많은 슈퍼컴퓨팅 작업을 수행하는 것을 방해합니다. 하지만 데이터 관리 계획을 아주 잘하는 직원이 있습니다. 사용자들과 이야기하여 그들의 입력 데이터, 언젠가 삭제할 중간 데이터 그리고 최종 데이터 제품이 무엇인지 알아봅니다. 규모가 어떻게 되는지? 얼마나 빠르게 성장하는지? 이렇게 하면 우리가 스토리지 요구사항을 계획하고 적절한 시간과 장소에 적절한 스토리지를 얻을 수 있습니다.
Jeniece: 좋아요. 회전 디스크를 언급하셨고 Bill도 같은 말씀을 하셨어요. [Solidigm]은 이 작은 물건에 122TB가 담기는 솔리드 스테이트 드라이브라는 장치를 만들었습니다. 얼마나 가벼운지 들어 보세요.
Laura: 대단하죠!
Jeniece: 정말 가벼워요. 스토리지 담당이 아니라는 건 알지만, 궁금해서요, 그 시스템에 그 회전 디스크들이 있다면…
Laura: 그걸 대체하냐고요? 네, 그렇습니다. 네, 예산이 된다면 대체합니다. 회전 디스크는 두 가지 기능을 합니다. 하나는 신뢰할 수 있다는 것이고 가격이 그렇게 비싸지는 않아요. 어느 정도의 수준까지는 신뢰할 만합니다. 이것이 유용하고 익숙하고 잘 작동하지만 전력이 많이 소비되고, 앞에 언급했듯이 전력 공급이 제한되어 있어서 전력 소비량을 감소시킬 수 있다면 정말 좋겠죠. 솔리드 스테이트 드라이브, SSD는 전력이 하나도 소모되지 않는 건 아니지만 적게 듭니다. 그래서 제 목표 중 하나는 항상 우리 예산에 맞는 알맞은 해결책을 찾는 것이었어요. 솔리드 스테이트로 더 바꾸기 위해서죠. 우리가 겪는 어려움 중 하나는 기후 연구를 위해 사용되는 데이터는 NetCDF 데이터로 이미 아주 압축되어 있어서 솔리드 스테이트의 많은 비용 구조 모델은 비용이 적게 들도록 데이터를 더욱 압축하는 것인데, 문제는 데이터가 압축되지 않아서 난감하죠. 하지만 성과 측면에서는 그 방향으로 가고 있어요. 지금 가지고 있는 더 빠른 칩으로 모델을 실행하도록 해 주는 데 중요한 것들을 가지고 있어요. [SSD technology]가 없다면 정말 어려웠을 거예요. 진짜로요.
Jeniece: 다시 앞으로 돌아가서 데이터는 잠시 접어 두고 AI는 어떤가요? 이곳의 많은 분들들과… 이야기를 좀 나눴는데 모두들 AI의 다양하게 사용하고 계시더라고요. 하고 계신 일에 대해 좀 알려주시죠.
Laura: 우리가 어떤 일을 하냐면, 앞서 언급했듯이, 4년 전 프리즘을 온라인에 도입했을 때 직원들이 한 번 사용해 본다고 했었어요. 낮 시간에만 액세스할 수 있었고 이것이 시스템에 어떻게 작용할지에 대해 연구했어요. 시간이 지난 후 잘 작동하기 시작했죠. 훈련 모델 실행을 수행하든지 아니면 어떤 추론을 수행하든지, 이제 우리는 이전보다 많이 활용하고 있습니다. 저희는 Prism 시스템 확장을 위해 NVIDIA Grace Hopper 노드를 구매할 예정입니다. 약 60개가 있고 두 곳의 장소에서 GPU를 사용하고 있습니다. 하나는 지구과학을 위해 기초 모델을 개발하고 있는 머신러닝인데 기후 코드를 적용하여 GPU에서 작동하도록 변환하고 있습니다. 이 일은 다른 그룹에서 하고 있죠. 재미있는 이야기를 하나 해 드릴까요. [It’s]HPC를 머신러닝과 결합하는 것에 관한 이야기인데요. 한 2년 전에, 사용자 한 분이 “통과하는 외계행성 위성 조사에서 얻은 테스트 데이터가 있다.”라고 하셨어요. 이 분은 쌍성을 찾고 있었어요. 이것은 시간이 지나면서 빛이 어떻게 변하는지 광도 곡선을 생성하는 것입니다. 이런 대부분의 별은 이런 패턴이 있습니다. 쌍성이라면 이 패턴을 보고 쌍성인지 알 수 있죠. 계산하기 위해 우리 슈퍼컴퓨터를 사용했어요. 비트 수를 알아보진 않았는데 백만 개 이상의 광도 곡선과 수 많은 시간의 슈퍼컴퓨팅 시간이 들겠죠. 이런 광도 곡선을 관찰하고 이를 프리즘으로 옮겨서 머신러닝을 실행하니 이상값을 발견했습니다. 많은 수의 쌍성을 발견한 것이죠. 쌍성계로 이루어진 쌍성계를 포함해 특이한 천체 시스템을 발견했어요. 그 중 중력으로 묶인 6개의 별인 6중성계라고 하는 것도 있어요. 그러니까 3쌍의 쌍성이 있는데 모두 서로 주변을 회전하는 거예요. 이것은 광도 곡선을 만들기 위한 HPC와 머신러닝을 결합했기 때문에 발견할 수 있었어요. 특별히 흥미로운 대상으로 보이는 것을 집중적으로 파악할 수 있게 해 준 이상 현상을 발견했기 때문이죠.
Jeniece: 멋지네요. 이것은 최근의 새로운 발견인가요?
Laura: 아니요. 이건 2년, 아니, 2년 반쯤 되었어요.
Jeniece: 그래도 엄청난 전체 발견을 본다면 꽤 새로운 것이군요. 정말 흥미롭습니다. 이 멋진 블랙홀 이미지에 대해 물어볼게요. 이것 또한 디스커버에서 나온 거라고 언급하셨죠.
Laura: 네, 이것도 같은 팀에서 발견한 것인데 저도 천문학을 했지만 이것은 제 범위를 좀 벗어나네요. 기술적으로 설명하기는 어려울 것 같지만 디스커버에서 찍은 것인데, 영상을 보는 것이 정말 중요해요. 보면 마치 블랙홀의 이벤트 지평선(Event Horizon)으로 빨려 들어가는 듯한 느낌을 받을 수 있답니다. 실제로 그렇게 된다면 돌아올 수 없어요! 정말 멋진 디스플레이라서 소셜미디어에서 굉장한 화제가 되었어요. 모든 계산은 디스커버에서 한 거죠.
Jeniece: 열심히 일해 주시고 조직의 노력, 성취한 모든 일들에 감사합니다. 정말 굉장해요. 만나 뵙게 되어 반가웠습니다, Laura. 감사합니다.
Laura: 감사합니다.