生成AIの応用は、静止画や事前生成された動画から、動的で双方向性のある体験へと急速に広がりつつあります。この分野で注目すべき進展が、Overworldが発表した Waypoint-1 モデルです。これは「リアルタイムインタラクティブ動画拡散モデル」と位置付けられており、ユーザーのマウスやキーボード入力に即座に反応して動画フレームを生成し、生成された世界に「没入」することを可能にします。本稿では、その仕組みと技術的革新点について解説します。詳細は公式ブログをご参照ください。

モデルのアーキテクチャと学習
Waypoint-1の基盤は、フレーム因果的(Frame-Causal)な整流フロートランスフォーマーです。この構造はリアルタイム処理に不可欠で、あるフレームは自身と過去のフレームの情報のみを参照し、未来のフレームは参照しません。1万時間に及ぶ多様なビデオゲーム映像と、それに対応するコントロール入力(キーボード、マウス)、テキストキャプションをペアで学習しています。
最大の特徴は ゼロレイテンシーでの制御 です。従来のインタラクティブモデルでは入力遅延が発生し、カメラの移動・回転など断続的で単純な制御に限られていました。Waypoint-1では、マウスによる自由な視点移動、あらゆるキーボードキーの入力が可能で、各入力は次の生成フレームに直接反映されます。

技術仕様と性能比較
| 項目 | Waypoint-1-Small (2.3B) | 従来のインタラクティブ動画モデル(一般的特徴) |
|---|---|---|
| 制御入力 | テキスト、マウス(自由視点)、キーボード(全キー) | テキスト、断続的カメラ制御(移動/回転) |
| 入力遅延 | ゼロレイテンシー (リアルタイム反映) | 数フレームの遅延が発生 |
| 生成方式 | フレーム単位の自己回帰的ロールアウト | シーケンス全体または遅延生成 |
| 推論性能 (RTX 5090 GPU) | ~30,000 トークン/秒, 2ステップ: 60 FPS, 4ステップ: 30 FPS | リアルタイム(30FPS)達成は困難な場合が多い |
| 学習手法 | Diffusion Forcing による事前学習 + Self-Forcing (DMD) による事後学習 | 事前学習済み動画モデル + 単純制御入力でのファインチューニング |
高性能推論ライブラリ:WorldEngine
この性能を実現するカギが、専用推論ライブラリ WorldEngine です。純粋なPythonで構築され、低遅延と高スループットのために最適化されています。AdaLN特徴キャッシング、静的ローリングKVキャッシュ、行列積の融合、torch.compileの活用など、4つの最適化技術が採用されています。

展望と実務への示唆
Waypoint-1は、ゲーム開発、インタラクティブメディア、シミュレーションなど、多様な分野に影響を与える可能性を秘めています。完成済みのコンテンツを配信するのではなく、ルールとシードに基づき、ユーザー入力に応じて即座にコンテンツを生成するというパラダイムの始まりと言えるでしょう。
もちろん、解像度や視覚的品質、世界の一貫性など、解決すべき課題も多く残されています。しかし、「リアルタイムでインタラクティブな生成AI」という方向性そのものは非常に有望です。開発者としては、WorldEngineライブラリを実際に試してみるか、せめて生成AIとインタラクティブ環境の融合という次の潮流を注視することが重要だと考えられます。