왜 이 모델이 주목받고 있나?
구글 I/O 2025에서 '에이전틱 코딩'이 화두로 떠오르면서, 단순히 채팅만 하는 AI를 넘어 실제 컴퓨터를 조작하고 문서를 분석하며 음성과 영상을 함께 이해하는 모델의 필요성이 커졌습니다. 이런 흐름 속에서 NVIDIA가 공개한 Nemotron 3 Nano Omni는 하나의 모델로 텍스트+이미지+비디오+오디오를 모두 처리하는 옴니모달(Omni-modal) 접근법을 택했습니다.
기존의 비전-언어 모델(VLM)이 이미지와 텍스트에만 집중했다면, 이 모델은 여기에 음성 인식(ASR), 비디오 이해, GUI 에이전트 기능까지 포함합니다. 특히 오픈소스로 공개된 체크포인트(BF16/FP8/NVFP4)를 누구나 다운로드할 수 있어, 연구자와 실무 개발자 모두에게 큰 관심을 받고 있습니다.
이 글은 NVIDIA 공식 블로그의 내용을 기반으로, 한국 개발자 시각에서 핵심 인사이트와 실무 적용 포인트를 정리했습니다.

핵심 아키텍처: Mamba + Transformer + MoE의 하이브리드
Nemotron 3 Nano Omni의 백본은 Nemotron 3 Nano 30B-A3B입니다. 30B 파라미터 중 활성화되는 파라미터는 3B로, 효율성과 성능의 균형을 맞췄습니다. 구조를 간단히 분해하면:
- 23개의 Mamba 레이어: 긴 컨텍스트(100페이지 문서, 5시간 이상 오디오)를 효율적으로 처리
- 23개의 MoE 레이어: 128개 전문가(Expert), Top-6 라우팅, 공유 전문가 포함
- 6개의 Grouped-Query Attention 레이어: 전역적 상호작용 유지
비전 인코더는 C-RADIOv4-H, 오디오 인코더는 Parakeet-TDT-0.6B-v2를 사용하며, 각각 2층 MLP 프로젝터로 백본에 연결됩니다.
동적 해상도: 문서·차트·스크린샷에 강한 이유
이미지 처리는 기존의 타일링(tiling) 전략 대신 네이티브 비율의 동적 해상도를 사용합니다. 이미지당 최소 1,024개에서 최대 13,312개의 비주얼 패치(16x16)로 표현됩니다. 정사각형 기준 512x512 ~ 1840x1840 해상도에 해당합니다.
# 동적 해상도 처리 개념 코드 (PyTorch 스타일)
import torch
from transformers import AutoModel, AutoProcessor
model = AutoModel.from_pretrained("nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16")
processor = AutoProcessor.from_pretrained("nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16")
# 고해상도 문서 이미지 (예: 계약서, 재무제표)
image = Image.open("financial_report_page_42.png")
# 동적 해상도로 처리: 이미지 해상도에 따라 패치 수가 자동 조정
inputs = processor(images=image, return_tensors="pt")
# inputs["pixel_values"]의 shape: (1, num_patches, 16, 16)
# num_patches는 이미지 해상도에 따라 달라짐
outputs = model(**inputs)
print(outputs.logits.shape) # (1, sequence_length, vocab_size)
비디오: Conv3D + EVS(Efficient Video Sampling)
비디오 처리를 위해 Conv3D 튜블릿 임베딩을 도입했습니다. 연속된 두 프레임을 하나의 튜블릿으로 압축해 토큰 수를 절반으로 줄입니다. 여기에 EVS(Efficient Video Sampling) 기법을 추가해, 변화가 없는 정적 토큰을 추론 시점에 제거합니다. 첫 프레임은 전체 유지, 이후 프레임은 동적 토큰만 보존합니다.
# EVS 적용 예시 (추론 시)
# model.evs_enabled = True 로 설정하면 자동 적용
video_frames = load_video_frames("meeting_recording.mp4", fps=1)
inputs = processor(videos=video_frames, return_tensors="pt")
# EVS가 자동으로 정적 프레임 토큰 제거
# 결과: 동일 토큰 예산으로 더 많은 프레임 처리 가능
오디오: 네이티브 오디오 입력
기존 VLM이 음성을 텍스트로 변환(ASR)한 후 처리했다면, 이 모델은 오디오 토큰을 그대로 멀티모달 시퀀스에 포함합니다. 16kHz 샘플링, 최대 1,200초(20분) 오디오 입력 지원. LLM 컨텍스트 길이로는 5시간 이상 처리 가능합니다.
벤치마크 성능: Qwen3-Omni와 비교
| 태스크 | 벤치마크 | Nemotron 3 Nano Omni | Qwen3-Omni 30B-A3B |
|---|---|---|---|
| 문서 이해 | OCRBenchV2-En | 65.8 | - |
| MMLongBench-Doc | 57.5 | 49.5 | |
| CharXiv 추론 | 63.6 | 61.1 | |
| GUI | ScreenSpot-Pro | 57.8 | 59.7 |
| OSWorld | 47.4 | 29.0 | |
| 비디오 이해 | Video-MME | 72.2 | 70.5 |
| 비디오+오디오 | WorldSense | 55.4 | 54.0 |
| DailyOmni | 74.1 | 73.6 | |
| 음성 상호작용 | VoiceBench | 89.4 | 88.8 |
| ASR | HF Open ASR (낮을수록 좋음) | 5.95 | 6.55 |
특히 **문서 이해(MMLongBench-Doc)**와 **GUI 에이전트(OSWorld)**에서 큰 격차를 보입니다. 시스템 효율성도 멀티 문서 작업에서 7.4배, 비디오 작업에서 9.2배 높습니다.
실무 적용 사례 3가지
사례 1: 100페이지 재무제표 분석
모델은 100페이지가 넘는 문서에서 특정 재무 지표를 추출하고 계산할 수 있습니다. 예를 들어 "2024년 3분기 매출총이익률을 계산해줘" 같은 질문에 표, 차트, 본문을 동시에 참조해 답변합니다.
사례 2: 화면 녹화 + 음성 해설 분석
튜토리얼 영상이나 회의 녹화에서 "발표자가 '예산 삭감'을 언급할 때 화면에 어떤 차트가 나오나요?" 같은 크로스모달 질문이 가능합니다.
사례 3: GUI 에이전트로 웹사이트 탐색
모델은 pyautogui 코드를 생성해 실제 브라우저를 조작합니다. "버지니아주 운전면허 자격 요건을 찾아줘"라는 명령에 대해 메뉴 클릭, 스크롤, 정보 추출까지 자동 수행합니다.
# GUI 에이전트 동작 예시 (모델 출력)
{
"thought": "사용자가 운전면허 자격 요건을 찾고 있습니다. 'License & IDs' 탭을 클릭해야 합니다.",
"action": "click",
"code": "pyautogui.click(450, 120)"
}
![]()
주의사항 및 한계
- 추론 비용: 30B 파라미터 모델이라 로컬 GPU(예: RTX 4090)에서 실시간 추론은 어렵습니다. FP8/NF4 양자화 버전을 사용하거나 클라우드 GPU(A100/H100)를 권장합니다.
- 한국어 성능: 공식 벤치마크는 영어 기반입니다. 한국어 문서/음성 성능은 추가 테스트가 필요합니다.
- GUI 에이전트 안정성: ScreenSpot-Pro에서 Qwen3-Omni에 소폭 밀리며, 복잡한 UI에서는 오탐지 가능성이 있습니다.
- 합성 데이터 의존도: 1,140만 개의 합성 QA 쌍(45B 토큰)으로 학습되어, 실제 분포와의 괴리가 있을 수 있습니다.
한국 개발 생태계에서의 적용 맥락
국내 SI/핀테크 환경에서는 장문의 계약서, 규제 문서, 금융 보고서 분석 수요가 큽니다. Nemotron 3 Nano Omni의 동적 해상도와 긴 컨텍스트는 이런 요구에 적합합니다. 다만, 국내 특화 도메인(예: 전자문서 표준, 한글 OCR)은 별도 파인튜닝이 필요할 수 있습니다.
또한, 최근 유행하는 AI 코딩 플랫폼의 진화와 결합하면, GUI 에이전트가 코드 작성부터 문서 분석까지 통합된 워크플로우를 제공할 가능성이 있습니다.

결론: 옴니모달 AI의 실전 시대
Nemotron 3 Nano Omni는 단순한 논문 데모가 아닌, 실제 업무에 투입할 수 있는 수준의 멀티모달 AI를 보여줍니다. 특히 문서 분석과 GUI 에이전트 분야에서 기존 오픈소스 모델을 크게 앞서며, Google I/O 2025에서 강조된 에이전틱 코딩 시대의 핵심 기술로 자리잡을 가능성이 높습니다.
다음 단계 학습 방향
- Hugging Face에서 체크포인트 다운로드 후 추론 테스트
- NeMo Data Designer로 한국어 문서 기반 합성 데이터 생성 파이프라인 구축
- Megatron-Bridge 예제를 참고해 커스텀 파인튜닝 시도
- GUI 에이전트 기능을 실제 업무(예: 내부 관리 시스템 자동화)에 적용해보기
관련 자료: