엔비디아 A100 텐서 코어 GPU, GenSLM 모델 훈련 위한 슈퍼컴퓨터 지원

홈 > 최신뉴스 > 주요뉴스
주요뉴스

IT | 엔비디아 A100 텐서 코어 GPU, GenSLM 모델 훈련 위한 슈퍼컴퓨터 지원

권경욱 기자 0   0

엔비디아(www.nvidia.co.kr)가 GenSLM 모델을 훈련하기 위해 엔비디아 A100 텐서 코어 GPU(A100 Tensor Core GPU)기반 슈퍼컴퓨터를 사용했다고 밝혔다. 아울러 이번 주 콜로라도주 덴버에서 열리는 SC23에서 엔비디아는 가속 컴퓨팅 분야의 새롭고 획기적인 연구 결과를 공유한다.  


널리 알려진 게놈 데이터용 대규모 언어 모델이 코로나19의 원인 바이러스인 SARS-CoV-2의 실제 변종과 매우 유사한 유전자 서열을 생성하는 능력을 증명했다.



c57c266fa3e707e5d433ec2425add241_mzXa1s3j_5dd182ea882c72e5f565863abc3937715bbed40f.jpg


지난해 고성능 컴퓨팅 기반 코로나19 연구 부문에서 고든벨(Gordon Bell) 상을 수상한 GenSLM 모델은 DNA와 RNA의 구성 요소인 뉴클레오티드 서열(nucleotide sequences) 데이터 세트를 기반으로 학습됐다. 이 모델은 아르곤 국립 연구소(Argonne National Laboratory), 엔비디아, 시카고 대학교(University of Chicago)와 기타 여러 학계와 상업 협력업체의 연구원들에 의해 개발됐다. 


연구진은 GenSLM이 생성한 뉴클레오티드 서열을 되돌아본 결과, 팬데믹 첫해부터 코로나19 바이러스 게놈만 훈련했음에도 불구하고 AI가 생성한 서열의 특정 특성이 올해 유행한 실제 에리스(Eris)와 피롤라(Pirola) 변종과 거의 일치하는 것을 발견했다. 


이 프로젝트의 수석 연구원이자 아르곤의 계산 생물학자인 아르빈드 라마나단(Arvind Ramanathan)은 "우리 모델의 생성 과정은 매우 단순하며, 새로운 코로나19 변종이 어떤 모습일지에 대한 구체적인 정보나 제약 조건이 부족하다. AI가 훈련 과정에서 알파와 베타 변종만 봤음에도 불구하고 최근 코로나19 변종에 존재하는 유전자 돌연변이의 종류를 예측할 수 있다는 것은 AI의 능력을 강력하게 입증하는 것"이라고 말했다. 


GenSLM은 자체 염기서열을 생성하는 것 외에도 변종을 구분함으로써 서로 다른 코로나19 게놈 염기서열을 분류하고 클러스터링할 수 있다. 엔비디아의 가속 소프트웨어 허브인 NGC에 곧 공개될 데모에서는 사용자가 코로나19 바이러스 게놈 내 다양한 단백질의 진화 패턴에 대한 GenSLM의 분석 시각화를 살펴볼 수 있다.



thumb-c57c266fa3e707e5d433ec2425add241_5HMdpCsY_3829c5a8ef97b0a9d1be023f426dd2c1dfee4a80_600x337.jpg


숨은 뜻을 파악해 진화 패턴을 밝혀내다


GenSLM의 핵심 기능은 긴 뉴클레오티드 문자열을 해석하는 능력이다. 이는 영어 텍스트를 학습한 LLM이 문장을 해석하는 것과 같은 방식으로 DNA의 A, T, G, C 또는 RNA의 A, U, G, C의 서열로 표시되는 문자열을 해석한다. 이 기능을 통해 모델은 약 30,000개의 뉴클레오티드로 구성된 코로나바이러스의 게놈에서 서로 다른 영역 간의 관계를 이해할 수 있다. 


데모에서 사용자는 8개의 서로 다른 코로나19 변종 중에서 하나를 선택할 수 있다. 이로써 AI 모델이 바이러스 게놈의 다양한 단백질에서 돌연변이를 추적하는 방법을 이해한다. 이 시각화는 바이러스 단백질 전반의 진화적 결합을 묘사해 특정 변종에서 어떤 게놈 조각이 발견될 가능성이 높은지 강조한다. 


라마나단은 "게놈의 여러 부분이 어떻게 함께 진화하는지 이해하면 바이러스가 어떻게 새로운 취약성이나 내성을 개발할 수 있는지에 대한 정보를 얻을 수 있다. 또한 변종에서 어떤 돌연변이가 특히 더 강력한지 모델을 통해 파악하면 과학자들이 특정 변종이 어떻게 인간 면역 체계를 회피할 수 있는지 알아내는 것과 같은 후속 작업을 수행하는 데 도움이 된다"고 말했다.



c57c266fa3e707e5d433ec2425add241_CGardIEH_36691b1d7f099555b4953f08c31bd60c3da94482.jpg


GenSLM은 1억 1,000만 개 이상의 원핵생물 게놈 서열로 훈련됐다. 박테리아와 바이러스 생물정보학 리소스 센터(Bacterial and Viral Bioinformatics Resource Center)의 오픈 소스 데이터를 통해 약 150만 개의 COVID 바이러스 서열의 글로벌 데이터 세트로 미세 조정됐다. 향후 다른 바이러스나 박테리아의 게놈에 대해서도 이 모델을 미세 조정해 새로운 연구 분야에 활용할 수 있다. 


연구진은 모델 훈련을 위해 엔비디아 A100 텐서 코어 GPU(A100 Tensor Core GPU)기반 슈퍼컴퓨터를 사용했다. 이는 아르곤의 폴라리스(Polaris) 시스템, 미국 에너지부의 펄머터(Perlmutter)와 엔비디아 셀린(Selene)을 포함한다. 


작년 SC22 슈퍼컴퓨팅 콘퍼런스에서 GenSLMs 연구팀은 고든벨 상을 받았다. 이번 주 덴버에서 열리는 SC23에서 엔비디아는 가속 컴퓨팅 분야의 새롭고 획기적인 연구 결과를 공유한다. 전체 일정은 여기서 확인할 수 있으며, 엔비디아의 특별 연설은 여기서 확인할 수 있다. 


전 세계 수백 명의 과학자와 엔지니어로 구성된 엔비디아 리서치(Research)는 AI, 컴퓨터 그래픽, 컴퓨터 비전, 자율주행 자동차, 로보틱스 등의 주제에 중점을 둔 팀으로 구성돼 있다. 엔비디아 리서치에 대한 자세한 내용과 엔비디아 헬스케어 뉴스는 여기서 구독할 수 있다. 


아르곤 국립연구소의 바랏 케일(Bharat Kale)이 메인 이미지를 제공했다. 


이 연구는 미국 DOE 과학국과 국가 핵안보국의 공동 작업인 엑사스케일 컴퓨팅 프로젝트(Exascale Computing Project, 17-SC-20-SC)의 지원을 받았다. 연구는 코로나19 대응에 중점을 둔 DOE 국립 연구소 컨소시엄인 국립 가상 생명공학 연구소(National Virtual Biotechnology Laboratory)를 통해 DOE의 지원을 받았으며, 코로나 바이러스 조치(CARES Act, Coronavirus Aid, Relief, and Economic Security Act)에 따른 자금으로 수행됐다.

 

ⓒ 블루프레임(https://www.blueframe.co.kr) 무단전재 및 재배포금지

, , , , , , ,

0 Comments
많이 본 뉴스
인기기사