언슬로스 기반 LLM 미세 조정 가속화, 엔비디아 네모트론 3 오픈 모델 제품군 공개

IT | 언슬로스 기반 LLM 미세 조정 가속화, 엔비디아 네모트론 3 오픈 모델 제품군 공개

권경욱 기자 IT 0 0 2025.12.16 10:29

엔비디아(www.nvidia.co.kr)가 네모트론 3(Nemotron 3) 오픈 모델 제품군을 공개하고, 언슬로스(Unsloth) 프레임워크를 통해 거대 언어 모델(large language model, LLM) 미세 조정을 가속화한다고 밝혔다. 이를 통해 엔비디아(NVIDIA) RTX AI PC와 DGX 스파크(DGX Spark)에서 학습, 업무, 창작 프로젝트 등의 맞춤형 AI 어시스턴트 구축을 지원한다.

최신 워크플로우는 PC 환경에서 생성형 AI와 에이전틱 AI(agentic AI)의 무한한 가능성을 보여준다.

대표적인 활용 사례로는 제품 지원 문의를 처리하기 위한 챗봇 조정이나, 개인 일정을 관리하는 개인 비서 개발 등이 있다. 하지만 소형 언어 모델(small language model, SLM)은 전문적인 에이전틱 작업에서 높은 정확도로 일관되게 수행하는 데 여전히 어려움을 겪고 있다.

이때 필요한 것이 바로 미세 조정이다.

언슬로스는 세계에서 가장 널리 사용되는 LLM 미세 조정을 위한 오픈소스 프레임워크 중 하나로, 모델을 손쉽게 조정할 수 있는 방법을 제공한다. 언슬로스는 엔비디아 GPU 메모리 사용을 최소화한 효율적인 훈련에 최적화됐으며, 지포스(GeForce) RTX 데스크톱과 노트북부터 RTX PRO 워크스테이션, 세계에서 가장 작은 AI 슈퍼컴퓨터인 DGX 스파크에 이르기까지 다양한 엔비디아 GPU 환경에서 활용할 수 있다.

엔비디아는 미세 조정을 위한 또 다른 핵심 기반으로 엔비디아 네모트론 3 제품군을 공개했다. 제품군에는 오픈 모델, 데이터, 라이브러리가 포함된다. 네모트론 3은 탁월한 에이전틱 AI 미세 조정을 지원하며, 가장 효율적인 오픈 모델 제품군을 제공한다.

AI에 새로운 역량을 학습시키다

미세 조정은 AI 모델에 집중적인 훈련 세션을 제공하는 것과 같다. 모델은 특정 주제, 워크플로우와 연관된 예시를 통해 새로운 패턴을 학습하고, 주어진 작업에 적응함으로써 정확도를 향상시킨다.

모델의 미세 조정 방식은 개발자가 기존 모델을 어느 수준까지 조정할지에 따라 달라진다. 개발자는 목표에 따라 다음 세 가지 주요 미세 조정 방식 중 하나를 선택할 수 있다.

파라미터 효율적 미세 조정(LoRA, QLoRA)

•작동 방식: 모델의 일부만 업데이트해 더 빠르고 저비용으로 훈련을 수행한다. 모델을 크게 변경하지 않고도 성능을 개선할 수 있는 효율적인 방식이다.

•적용 사례: 도메인 지식 추가, 코딩 정확도 향상, 법률·과학 작업용 모델 적응, 추론 정교화, 어조·행동 일치 등 기존의 완전 미세 조정이 적용되던 거의 모든 상황에서 활용 가능하다.

•요구 사항: 소규모, 중규모 데이터세트(100~1,000개의 프롬프트-샘플 쌍)

완전 미세 조정

•작동 방식: 모델의 모든 매개변수를 업데이트하는 방식으로, 특정 형식이나 스타일을 따르도록 모델을 훈련하는 데 유용하다.

•적용 사례: 특정 주제에 대한 지원을 제공하고, 정해진 가드레일 세트를 유지하며, 특정 방식으로 응답해야 하는 AI 에이전트와 챗봇 개발과 같은 고급 사용 사례에서 활용 가능하다.

•요구 사항: 대규모 데이터세트(1,000개 이상의 프롬프트-샘플 쌍)

강화 학습

•작동 방식: 피드백 또는 선호도 신호를 사용해 모델의 행동을 조정한다. 모델은 환경과 상호작용하며 학습하고, 피드백을 통해 시간이 지남에 따라 스스로 성능을 개선한다. 훈련과 추론이 결합된 복잡한 고급 기술로, 파라미터 효율적 미세 조정과 완전 미세 조정 방식과 병행해서 사용할 수 있다. 자세한 내용은 언슬로스의 강화 학습 가이드(Reinforcement Learning Guide)에서 확인할 수 있다.

•적용 사례: 법률, 의학 같은 특정 분야의 모델 정확도를 향상시키거나, 사용자를 대신해 행동을 조정할 수 있는 자율 에이전트 구축에 활용 가능하다.

•요구 사항: 행동 모델, 보상 모델, 환경 등 모델이 학습할 수 있는 프로세스

추가로 미세 조정 방식에 필요한 VRAM 사양도 고려해야 한다. 아래 표는 언슬로스에서 각 유형의 미세 조정 방식을 실행하는 데 필요한 요구 사항을 정리한 것이다.

언슬로스 미세 조정 요구 사항

언슬로스, 엔비디아 GPU에서 미세 조정 가속화

LLM 미세 조정은 메모리와 연산 집약적인 작업으로, 훈련 단계마다 모델 가중치를 업데이트하기 위해 수십억 개의 행렬 곱셈을 수행해야 한다. 엔비디아 GPU의 강력한 성능은 이러한 고도의 병렬 워크로드를 신속하고 효율적으로 처리하기 위해 필수적이다.

언슬로스는 이러한 워크로드에서 강점을 발휘하며, 복잡한 수학적 연산을 효율적인 맞춤형 GPU 커널로 변환해 AI 훈련을 가속화한다.

언슬로스는 엔비디아 GPU 환경에서 허깅페이스 트랜스포머 라이브러리(Hugging Face transformers library)의 성능을 최대 2.5배 향상시킨다. 이러한 GPU 전용 최적화와 언슬로스의 사용 편의성은 더 많은 AI 연구자와 개발자 커뮤니티가 미세 조정을 쉽게 활용할 수 있도록 지원한다.

이 프레임워크는 지포스 RTX 노트북, RTX PRO 워크스테이션, DGX 스파크를 포함한 엔비디아 하드웨어에 맞춰 설계되고 최적화돼, VRAM 사용량을 줄이면서도 최고 수준의 성능을 제공한다.

언슬로스는 다양한 LLM 구성, 하이퍼파라미터(hyperparameters), 옵션의 시작 방법과 관리 방법에 대한 유용한 가이드를 제공하며, 예제 문서와 단계별 워크플로우도 함께 제공한다.

아래에서 언슬로스 가이드에 대한 자세한 내용을 확인할 수 있다.

•엔비디아 RTX 50 시리즈 GPU와 언슬로스를 활용한 LLM 미세 조정

•엔비디아 DGX 스파크와 언슬로스를 활용한 LLM 미세 조정

여기에서 엔비디아 DGX 스파크에서 언슬로스를 설치할 수 있으며, 엔비디아 기술 블로그에서는 엔비디아 블랙웰(Blackwell) 플랫폼의 미세 조정과 강화 학습에 대한 자세한 내용을 확인할 수 있다.

여기에서 매튜 버먼(Matthew Berman)이 엔비디아 지포스 RTX 5090에서 언슬로스를 활용해 강화 학습 기반 로컬 미세 조정을 직접 실행하는 과정을 확인할 수 있다.

엔비디아 네모트론 3 오픈 모델 제품군 공개

엔비디아가 새롭게 공개한 네모트론 3 오픈 모델 제품군은 나노(Nano), 슈퍼(Super), 울트라(Ultra) 세 가지 모델로 구성되며, 신규 하이브리드 전문가 혼합 방식(Mixture-of-Experts, MoE) 아키텍처 기반으로 설계됐다. 네모트론 3 제품군은 업계 선도적인 정확도와 효율성을 갖춘 오픈 모델 제품군으로, 에이전틱 AI 애플리케이션 구축에 이상적이다.

네모트론 3 나노 30B-A3B(Nemotron 3 Nano 30B-A3B)는 현재 출시된 라인업 중 가장 컴퓨팅 효율이 높은 모델이다. 소프트웨어 디버깅, 콘텐츠 요약, AI 어시스턴트 워크플로우, 낮은 추론 비용의 정보 검색 등의 작업에 최적화됐다. 하이브리드 MoE 설계는 다음과 같은 성능을 제공한다.

•추론 토큰 최대 60% 감소해 추론 비용 크게 절감

•100만 토큰 컨텍스트 윈도우 지원으로, 장시간·다단계 작업에서도 훨씬 더 많은 정보 유지 가능

네모트론 3 슈퍼(Nemotron 3 Super)는 멀티 에이전트 애플리케이션을 위한 고정밀 추론 모델이며, 네모트론 3 울트라(Nemotron 3 Ultra)는 복잡한 AI 애플리케이션을 위한 모델이다. 두 모델은 모두 2026년 상반기에 출시될 예정이다.

또한 엔비디아는 개방형 훈련 데이터세트 모음과 최첨단 강화 학습 라이브러리를 출시했다. 네모트론 3 나노 미세 조정은 언슬로스를 통해 이용할 수 있다.

허깅페이스에서 네모트론 3 나노를 다운로드할 수 있으며, 라마.cpp(Llama.cpp)와 LM 스튜디오(LM Studio)를 통해서도 사용 가능하다.

DGX 스파크, 컴팩트한 AI 파워하우스

DGX 스파크는 로컬 미세 조정을 지원하며, 컴팩트한 데스크톱 슈퍼컴퓨터로 놀라운 AI 성능을 제공한다. 개발자들은 일반 PC보다 더 많은 메모리를 활용할 수 있다.

엔비디아 그레이스 블랙웰(Grace Blackwell) 아키텍처를 기반으로 구축된 DGX 스파크는 최대 1페타플롭(FP4) AI 성능을 제공하며, 통합 CPU-GPU의 128GB 메모리를 통해 개발자가 더 큰 모델, 긴 컨텍스트 윈도우와 까다로운 훈련 워크로드를 로컬에서 실행할 수 있는 충분한 여유 공간을 제공한다.

DGX 스파크는 다음과 같은 미세 조정 성능을 제공한다.

•큰 모델 크기: 300억 개 이상의 파라미터를 가진 모델은 소비자용 GPU의 VRAM 용량을 초과하는 경우가 많지만, DGX 스파크의 통합 메모리에는 여유롭게 수용된다.

•고급 기술: 더 많은 메모리와 높은 처리량을 요구하는 완전 미세 조정과 강화 학습 기반 워크플로우가 DGX 스파크에서 훨씬 빠르게 실행된다.

•클라우드 대기 없는 로컬 제어: 개발자는 클라우드 인스턴스를 기다리거나 여러 환경을 관리할 필요 없이, 연산 집약적 작업을 로컬에서 실행할 수 있다.

DGX 스파크의 강점은 LLM에만 국한되지 않는다. 예를 들어, 고해상도 확산 모델은 일반 데스크톱이 제공하는 메모리 용량을 넘어서는 경우가 많다. FP4 지원과 대용량 통합 메모리를 갖춘 DGX 스파크는 단 몇 초 만에 1천 개의 이미지를 생성할 수 있으며, 창의적 또는 멀티 모달 파이프라인에서도 더 높은 처리량을 유지할 수 있다.

아래 표는 DGX 스파크의 라마(Llama) 제품군 미세 조정 성능을 보여준다.

DGX 스파크의 라마 제품군 미세 조정 성능

미세 조정 워크플로우가 발전함에 따라, 새로운 네모트론 3 오픈 모델 제품군은 RTX 시스템과 DGX 스파크에 최적화된 확장 가능한 추론과 긴 컨텍스트 성능을 제공한다.

여기에서 DGX 스파크의 고강도 AI 작업 처리에 대한 자세한 내용을 확인할 수 있다.

엔비디아 RTX AI PC 최신 업데이트 소식

•엔비디아 RTX GPU에 최적화된 FLUX.2 이미지 생성 모델 출시

블랙 포레스트 랩스(Black Forest Labs)의 신형 모델은 FP8 양자화 방식으로 VRAM을 절감하고 성능을 40% 향상시킨다.

•넥사AI, 에이전트 검색용 하이퍼링크로 RTX PC의 로컬 AI 확장

신규 온디바이스 검색 에이전트는 검색 증강 생성 인덱싱 속도를 3배, LLM 추론 속도를 2배 향상시켜 1GB 용량의 밀집 폴더 인덱싱 시간을 약 15분에서 4~5분으로 단축한다. 또한 딥시크(DeepSeek) OCR이 넥사SDK(NexaSDK)를 통해 GGUF에서 로컬 실행되며, RTX GPU에서 차트, 수식, 다국어 PDF의 플러그-앤-플레이(plug-and-play) 파싱을 제공한다.

•엔비디아 GPU, 미스트랄 AI 최적화 신규 모델 제품군 공개

세로운 미스트랄 3(Mistral 3) 모델은 클라우드부터 엣지까지 최적화됐으며, 올라마(Ollama)와 라마.cpp를 통해 빠른 로컬 실험을 지원한다.

•블렌더 5.0, HDR 컬러와 주요 성능 향상으로 출시

이번 출시에는 ACES 2.0 광색역과 HDR 컬러, 헤어와 털 렌더링 속도를 최대 5배 향상시키는 엔비디아 DLSS, 대규모 지오메트리 처리 개선, 그리즈 펜슬(Grease Pencil)용 모션 블러 기능이 추가됐다.

페이스북(Facebook), 인스타그램(Instagram), 틱톡(TikTok), X에서 엔비디아 AI PC에 연결하고 RTX AI PC 뉴스레터를 구독해 최신 소식을 받아볼 수 있다. 링크드인(LinkedIn)과 X에서 엔비디아 워크스테이션(Workstation)을 팔로우할 수 있다.

여기에서 소프트웨어 제품 정보 관련 약관을 확인할 수 있다.

엔비디아, NVIDIA, 언슬로스, Unsloth, 기반.LLM, 거대 언어 모델, large language model, 미세.조정.가속화, 네모트론 3, Nemotron 3, 오픈, 모델, 제품군, 공개