엔비디아 - 스타트업 에보자인과 협력, 단백질 공학용 생성형 AI 모델 구축

홈 > 최신뉴스 > 주요뉴스
주요뉴스

IT | 엔비디아 - 스타트업 에보자인과 협력, 단백질 공학용 생성형 AI 모델 구축

권경욱 기자 0   0

엔비디아(www.nvidia.co.kr, CEO 젠슨 황)가 스타트업 에보자인(Evozyne)과 손잡고 엔비디아(NVIDIA)의 사전 훈련된 AI 모델을 사용해 의료, 청정에너지 분야에서 상당한 잠재력을 지닌 두 가지 단백질을 만들었다고 밝혔다.  


지난 주에 발표된 공동 논문은 그 과정과 생산된 생물학적 빌딩 블록을 설명한다. 첫 번째 단백질은 선천적 질병을 치료를 목표로 하며, 두 번째는 지구 온난화를 줄이기 위해 이산화탄소를 소비하도록 설계됐다.



thumb-c57c266fa3e707e5d433ec2425add241_bPklY1ED_0beb6c66690e6bb94e8e844e2008afc2f5830379_600x321.jpg


초기 결과는 약물 발견 등을 가속화하는 새로운 방법을 보여준다. 


에보자인의 공동 창립자이자 논문 공동 저자인 앤드루 퍼거슨(Andrew Ferguson)은 “첫 번째 라운드부터 AI 모델이 자연 발생 단백질만큼 우수한 합성 단백질을 생산했다는 것은 정말 고무적이었다. 이는 모델이 자연의 디자인 규칙을 올바르게 학습했다는 것을 의미한다”고 말했다. 


혁신적 AI 모델


에보자인은 의료용 AI 모델 생성을 위한 소프트웨어 프레임워크이자 서비스 엔비디아 바이오네모(BioNeMo)의 일부인 트랜스포머 모델의 엔비디아 프롯T5(ProtT5) 구현을 활용했다. 


화학과 머신 러닝의 교차점에서 작업하는 분자 엔지니어인 퍼거슨은 “바이오네모는 모델 훈련을 지원하고 매우 저렴한 비용으로 모델 작업을 실행하는 데 필요한 모든 것을 제공했다. 단 몇 초 만에 수백만 개의 시퀀스를 생성할 수 있었다”고 전했다. 


이 모델은 ProT-VAE라고 하는 에보자인 프로세스의 핵심이며 바이오네모와 필터 역할을 하는 변형 자동 인코더를 결합한 워크플로우이다. 


퍼거슨은 “단백질을 설계하기 위해 변형 자동 인코더와 결합된 대규모 언어 모델(LLM)을 사용하는 것은 불과 몇 년 전만 해도 누구도 생각하지 못했던 일이다”고 말했다. 


자연의 방식을 학습하는 AI 모델


엔비디아의 트랜스포머 모델은 학생이 책을 읽듯이, 수백만 개의 단백질에서 아미노산 서열을 읽는다. 신경망이 텍스트를 이해하는 데 사용하는 것과 동일한 기술을 사용해, 트렌스포머 모델은 자연이 어떻게 강력한 생물학 구성 요소를 조립하는지에 대한 방법을 학습했다. 


이후 이 모델은 에보자인이 다루고자 하는 기능에 적합한 새로운 단백질을 조립하는 방법을 예측했다. 


퍼거슨은 “이 기술은 우리가 10년 전에는 상상만 했던 일을 실현할 수 있게 해준다”고 말했다. 


가능성의 바다


머신 러닝은 가능한 단백질 서열의 천문학적 수를 탐색한 다음 가장 유용한 서열을 효율적으로 식별할 수 있도록 돕는다. 


유도진화(Directed Evolution)라고 불리는 전통적인 단백질 공학법은 느리고 복불복인 방식을 사용한다. 일반적으로 한 번에 몇 개의 아미노산만 순서대로 변경할 수 있다.



thumb-c57c266fa3e707e5d433ec2425add241_1uzvb8tR_4cb5eb340068fc12a80d490ff218057b9d4f2bb3_600x179.jpg

에보자인의 ProT-VAE 프로세스는 엔비디아 바이오네모의 강력한 트랜스포머 모델을 사용해 약물 발견과 지속가능 에너지를 위한 유용한 단백질을 생성한다. 


대조적으로, 에보자인의 방식은 단일 라운드에서 단백질의 절반 이상의 아미노산을 변경할 수 있다. 이는 수백 개의 돌연변이를 만드는 것에 해당한다. 


퍼거슨은 “우리는 새롭고 유용한 기능을 가진, 이전에 본 적 없는 단백질을 탐색할 수 있는 엄청난 도약을 하고 있다”고 말했다. 


에보자인은 새로운 프로세스를 사용해 질병과 기후 변화에 대처하는 데 도움이 되는 다양한 단백질을 생성할 계획이다. 


훈련 시간 단축, 모델 확장


퍼거슨은 “엔비디아는 이 작업에서 놀라운 파트너였다”고 말했다. 


에보자인의 데이터 사이언티스트인 조슈아 몰러(Joshua Moller)는 “엔비디아는 훈련 속도를 높이기 위해 작업을 여러 GPU로 확장했다. 우리는 매분 마다 전체 데이터 세트를 검토할 수 있었다”고 말했다. 


이에 따라 대규모 AI 모델을 훈련하는 시간이 몇 달에서 일주일로 단축됐다. 퍼거슨은 “엔비디아 덕분에 수십억 개의 훈련 가능한 파라미터가 있는 모델을 훈련할 수 있었다. 다른 방법으로는 불가능했을 것”이라고 말했다. 


무궁무진한 가능성


AI로 가속화된 단백질 공학의 지평은 넓다. 


퍼거슨은 최근 확산 모델의 부상을 언급하며 “이 분야는 믿을 수 없을 정도로 빠르게 움직이고 있으며, 다음에 무엇이 올지 정말 기대된다”고 전했다. 


“5년 후에 우리가 어디에 있을지 누가 알 것인가?”


여기에서 엔비디아 바이오네모에 대한 얼리 액세스를 신청하고 애플리케이션을 가속화할 수 있는 방법을 확인할 수 있다.

 

ⓒ 블루프레임(https://www.blueframe.co.kr) 무단전재 및 재배포금지

, , , , , , , , , , , , , , ,

0 Comments
맨위로↑