거대 언어 모델 혁신 추진, 엔비디아 구글 딥마인드와 협력

IT | 거대 언어 모델 혁신 추진, 엔비디아 구글 딥마인드와 협력

권경욱 기자 IT 0 0 05.17 11:32

엔비디아(www.nvidia.co.kr)가 14일 열린 구글(Google) 연례 개발자 콘퍼런스인 ‘구글 I/O 2024’에서 세 가지 새로운 협업 내용을 발표했다. 이번 협업으로 엔비디아(NVIDIA)와 구글은 세계적 수준의 성능을 갖춘 AI 기반 애플리케이션을 더 쉽게 만들 수 있도록 개발자를 지원할 예정이다.

텍스트, 이미지, 사운드와 같은 여러 유형의 데이터를 처리하는 모델이 점점 더 보편화되면서 생성형 AI를 구동하는 거대 언어 모델(large language model, LLM)에 대한 혁신이 가속화되고 있다.

그러나 이러한 모델을 구축하고 배포하는 것은 여전히 어려운 과제다. 개발자는 모델을 빠르게 경험하고 평가해 사용 사례에 가장 적합한 모델을 결정한 다음, 비용 효율적일 뿐만 아니라 최상의 성능을 제공하는 방식으로 모델을 최적화할 수 있는 방법이 필요하다.

젬마 + NIM

엔비디아는 이번 행사에서 구글이 선보인 두 가지 새로운 모델인 젬마 2(Gemma 2)와 팔리젬마(PaliGemma)를 최적화하기 위해 텐서RT-LLM(TensorRT-LLM)을 사용하고 있다. 이 두 모델들은 모두 제미나이(Gemini)를 만드는 데 사용된 동일한 연구와 기술을 기반으로 구축됐으며, 각각 특정 영역에 중점을 둔다.

젬마 2는 광범위한 사용 사례를 위한 차세대 젬마 모델로, 획기적인 성능과 효율성을 위해 설계된 완전히 새로운 아키텍처가 특징이다.

팔리젬마는 PaLI-3에서 영감을 받은 개방형 시각 언어 모델(VLM, vision language model)이다. 이는 SigLIP 시각 모델과 젬마 언어 모델을 포함한 개방형 구성 요소를 기반으로 구축됐으며, 이미지, 짧은 비디오 캡션, 시각적 이미지 질의응답, 이미지 내 텍스트 이해, 객체 감지나 분할과 같은 시각 언어 작업을 위해 설계됐다. 팔리젬마는 광범위한 시각 언어 작업에서 최고 수준의 미세 조정 성능을 탑재했고 엔비디아 JAX-툴박스(JAX-Toolbox)에서도 지원된다.

젬마 2와 팔리젬마는 대규모 AI 모델 배포를 간소화하는 엔비디아 AI 엔터프라이즈(AI Enterprise) 소프트웨어 플랫폼의 일부인 엔비디아 NIM 추론 마이크로서비스와 함께 제공될 예정이다. 새로운 두 모델에 대한 NIM 지원은 팔리젬마를 시작으로 API 카탈로그에서 사용할 수 있으며, 곧 엔비디아 NGC와 깃허브(GitHub)에서 컨테이너로 출시될 예정이다.

코랩에 가속화된 데이터 분석 기능 제공

구글은 데이터 과학자에게 가장 인기 있는 개발자 플랫폼 중 하나인 구글 코랩(Colab)에서 오픈 소스 GPU 데이터 프레임 라이브러리인 래피즈 cuDF(RAPIDS cuDF)가 기본으로 지원된다고 발표했다. 매월 천만 명에 달하는 구글 코랩의 월간 사용자들은 이제 코드 변경 없이 단 몇 초 만에 엔비디아 L4 텐서 코어(Tensor Core) GPU를 사용해 판다스(pandas) 기반 파이썬(Python) 워크플로우를 최대 50배까지 가속화할 수 있다.

구글 코랩을 사용하는 개발자는 래피즈 cuDF를 통해 탐색적 분석(exploratory analysis)과 생산 데이터 파이프라인의 속도를 높일 수 있다. 판다스는 직관적인 API로 인해 세계에서 가장 인기 있는 데이터 처리 도구 중 하나이지만 데이터 규모가 커질수록 애플리케이션에 문제가 종종 생긴다. 5~10GB 크기의 데이터라도 CPU에서 간단한 작업을 완료하는 데 몇 분이나 걸리기도 하기 때문에, 탐색적 분석과 생산 데이터 파이프라인의 속도가 느려질 수 있다.

이 경우 래피즈 cuDF는 GPU에서 판다스 코드를 원활하게 가속하고, 그렇지 않은 경우 CPU-판다스(CPU-pandas)로 되돌아가 이 문제를 해결하도록 설계됐다. 코랩에서 기본적으로 사용할 수 있는 래피즈 cuDF를 통해 모든 개발자는 어디서나 가속화된 데이터 분석을 활용할 수 있다.

본격적인 AI 활용의 시작

엔비디아와 구글은 엔비디아 RTX 그래픽을 사용해 AI PC를 활용하는 파이어베이스 젠킷(Firebase Genkit)에 대한 협업도 발표했다. 이는 개발자가 새로운 젬마 모델 제품군을 비롯한 생성형 AI 모델을 웹과 모바일 애플리케이션에 쉽게 통합해 맞춤형 콘텐츠, 시맨틱 검색(semantic search), 문의에 대한 답변을 제공할 수 있도록 지원한다. 개발자는 로컬 RTX GPU로 작업 줄기(work stream)를 시작한 다음, 작업을 구글 클라우드(Google Cloud) 인프라로 원활하게 이동할 수 있다.

개발자들은 모바일 개발자들이 주로 쓰는 프로그래밍 언어인 자바스크립트(JavaScript)를 사용하는 젠킷으로 앱을 더욱 쉽게 개발할 수 있다.

계속되는 혁신

엔비디아와 구글 클라우드는 AI의 발전을 위해 다양한 분야에서 협력하고 있다. 곧 출시될 그레이스 블랙웰(Grace Blackwell) 기반 DGX 클라우드 플랫폼과 JAX 프레임워크 지원부터 구글 쿠버네티스 엔진(Kubernetes Engine)에 엔비디아 네모(NeMo) 프레임워크 도입까지, 양사의 풀스택(full-stack) 파트너십은 사용자가 구글 클라우드에서 엔비디아 기술을 사용해 AI로 수행할 수 있는 작업의 가능성을 확장하고 있다.

엔비디아, NVIDIA, 5월 14일, 구글 연례 개발자 컨퍼런스, Google, 구글 I/O 2024, 세 가지, 3가지, 새로운, 협업, 내용, 발표, 거대 언어 모델, 혁신 추진, 구글 딥마인드, 협력

거대 언어 모델 혁신 추진, ﻿엔비디아 구글 딥마인드와 협력

IT | 거대 언어 모델 혁신 추진, ﻿엔비디아 구글 딥마인드와 협력

거대 언어 모델 혁신 추진, 엔비디아 구글 딥마인드와 협력

IT | 거대 언어 모델 혁신 추진, 엔비디아 구글 딥마인드와 협력