なぜこのモデルが注目されているのか
Google I/O 2025で「エージェンティックコーディング」が大きな話題となり、単なるチャットAIを超えて実際のコンピュータを操作し、文書を分析し、音声と映像を同時に理解するモデルの必要性が高まっています。そんな流れの中でNVIDIAが公開したNemotron 3 Nano Omniは、一つのモデルでテキスト+画像+動画+音声をすべて処理するオムニモーダルアプローチを採用しました。
従来のVLM(Vision-Language Model)が画像とテキストに特化していたのに対し、本モデルは音声認識(ASR)、動画理解、GUIエージェント機能まで内蔵しています。特にオープンソースとしてチェックポイント(BF16/FP8/NVFP4)が公開されているため、研究者から実務開発者まで幅広い層が利用可能です。
本記事はNVIDIA公式ブログの内容をベースに、日本の開発者視点で実用的なインサイトをまとめました。

アーキテクチャの核心:Mamba + Transformer + MoEのハイブリッド
Nemotron 3 Nano OmniのバックボーンはNemotron 3 Nano 30B-A3Bです。30Bパラメータのうち、実際に活性化されるのは3Bのみで、効率と性能のバランスを最適化しています。アーキテクチャを簡単に分解すると:
- 23層のMambaレイヤー:長いコンテキスト(100ページの文書、5時間以上の音声)を効率的に処理
- 23層のMoEレイヤー:128エキスパート、Top-6ルーティング、共有エキスパートを含む
- 6層のGrouped-Query Attentionレイヤー:大域的な相互作用を維持
ビジョンエンコーダはC-RADIOv4-H、オーディオエンコーダはParakeet-TDT-0.6B-v2を使用し、それぞれ2層のMLPプロジェクタでバックボーンに接続されます。
動的解像度:文書・チャート・スクリーンショットに強い理由
画像処理は従来のタイル分割戦略ではなく、ネイティブアスペクト比の動的解像度を採用。画像あたり最小1,024個から最大13,312個のビジュアルパッチ(16x16)で表現します。正方形換算で512x512〜1840x1840ピクセル相当です。
# 動的解像度処理の概念コード(PyTorchスタイル)
import torch
from transformers import AutoModel, AutoProcessor
model = AutoModel.from_pretrained("nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16")
processor = AutoProcessor.from_pretrained("nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16")
# 高解像度の文書画像(例:契約書、財務諸表)
image = Image.open("financial_report_page_42.png")
# 動的解像度で処理:画像解像度に応じてパッチ数が自動調整
inputs = processor(images=image, return_tensors="pt")
# inputs["pixel_values"]のshape: (1, num_patches, 16, 16)
# num_patchesは画像解像度に依存
outputs = model(**inputs)
print(outputs.logits.shape) # (1, sequence_length, vocab_size)
動画:Conv3D + EVS(Efficient Video Sampling)
動画処理にはConv3Dチューブレット埋め込みを採用。連続する2フレームを1つのチューブレットに圧縮し、トークン数を半減します。さらにEVS(Efficient Video Sampling) を導入し、変化のない静的トークンを推論時に削除します。最初のフレームは全保持、以降は動的トークンのみを保持します。
# EVS適用例(推論時)
# model.evs_enabled = True で自動適用
video_frames = load_video_frames("meeting_recording.mp4", fps=1)
inputs = processor(videos=video_frames, return_tensors="pt")
# EVSが自動的に静的フレームトークンを削除
# 結果:同じトークン予算でより多くのフレームを処理可能
音声:ネイティブ音声入力
従来のVLMが音声をテキストに変換(ASR)してから処理していたのに対し、本モデルは音声トークンをそのままマルチモーダルシーケンスに含めます。16kHzサンプリング、最大1,200秒(20分)の音声入力に対応。LLMのコンテキスト長としては5時間以上処理可能です。
ベンチマーク性能:Qwen3-Omriとの比較
| タスク | ベンチマーク | Nemotron 3 Nano Omni | Qwen3-Omni 30B-A3B |
|---|---|---|---|
| 文書理解 | OCRBenchV2-En | 65.8 | - |
| MMLongBench-Doc | 57.5 | 49.5 | |
| CharXiv推論 | 63.6 | 61.1 | |
| GUI | ScreenSpot-Pro | 57.8 | 59.7 |
| OSWorld | 47.4 | 29.0 | |
| 動画理解 | Video-MME | 72.2 | 70.5 |
| 動画+音声 | WorldSense | 55.4 | 54.0 |
| DailyOmni | 74.1 | 73.6 | |
| 音声対話 | VoiceBench | 89.4 | 88.8 |
| ASR | HF Open ASR(低いほど良い) | 5.95 | 6.55 |
特に文書理解(MMLongBench-Doc) とGUIエージェント(OSWorld) で大きな差が見られます。システム効率もマルチ文書タスクで7.4倍、動画タスクで9.2倍高い結果です。
実務適用事例3選
事例1:100ページの財務諸表分析
モデルは100ページ超の文書から特定の財務指標を抽出・計算できます。「2024年第3四半期の売上総利益率を計算して」といった質問に、表・チャート・本文を同時参照して回答します。
事例2:画面録画+音声解説の分析
チュートリアル動画や会議録画で、「発表者が『予算削減』に言及したとき、画面にどのチャートが表示されていますか?」といったクロスモーダルな質問が可能です。
事例3:GUIエージェントによるWebサイト操作
モデルはpyautoguiコードを生成し、実際のブラウザを操作します。「バージニア州の運転免許取得条件を探して」という指示に対し、メニュークリック、スクロール、情報抽出まで自動実行します。
# GUIエージェント動作例(モデル出力)
{
"thought": "ユーザーが運転免許の資格要件を探しています。'License & IDs'タブをクリックします。",
"action": "click",
"code": "pyautogui.click(450, 120)"
}

注意点と限界
- 推論コスト:30Bパラメータモデルのため、ローカルGPU(例:RTX 4090)でのリアルタイム推論は困難です。FP8/NF4量子化版を使用するか、クラウドGPU(A100/H100)を推奨します。
- 日本語性能:公式ベンチマークは英語ベースです。日本語の文書・音声性能は追加テストが必要です。
- GUIエージェントの安定性:ScreenSpot-ProではQwen3-Omniに僅かに劣り、複雑なUIでは誤検知の可能性があります。
- 合成データへの依存:1,140万件の合成QAペア(45Bトークン)で学習しており、実データ分布との乖離が懸念されます。
日本市場での適用コンテキスト
日本のSI/金融業界では、長期契約書、規制文書、金融レポートの分析需要が極めて高いです。Nemotron 3 Nano Omniの動的解像度と長いコンテキストは、こうした要件に適合します。ただし、日本語特有のドメイン(例:電子文書標準、日本語OCR)には別途ファインチューニングが必要でしょう。
また、最近注目のAIコーディングプラットフォームの進化と組み合わせれば、GUIエージェントがコード作成から文書分析まで統合したワークフローを提供できる可能性があります。

まとめ:オムニモーダルAIの実戦投入時代
Nemotron 3 Nano Omniは、単なる論文上のデモではなく、実際の業務に投入できるレベルのマルチモーダルAIを示しました。特に文書分析とGUIエージェント分野で既存のオープンソースモデルを大きく凌駕しており、Google I/O 2025で強調されたエージェンティックコーディング時代の中核技術として位置づけられるでしょう。
次のステップとしての学習方向
- Hugging Faceからチェックポイントをダウンロードし、推論テスト
- NeMo Data Designerで日本語文書ベースの合成データ生成パイプライン構築
- Megatron-Bridgeのサンプルを参考にカスタムファインチューニング
- GUIエージェント機能を実際の業務(例:社内管理システムの自動化)に適用
参考資料: