게임이나 가상 세계를 실시간으로 생성하는 AI 모델에 대한 연구가 가속화되고 있습니다. 최근 공개된 Overworld의 Waypoint-1은 이 분야에서 주목할 만한 진전을 보여주는 모델입니다. 기존 비디오 생성 모델과는 달리, 사용자의 키보드/마우스 입력에 실시간으로 반응하며 프레임을 생성하는 '인터랙티브 월드 모델'을 표방하고 있죠. 이 글에서는 Waypoint-1이 무엇을 가능하게 하는지, 그리고 그 뒤에 숨은 기술적 혁신을 살펴보겠습니다. 자세한 내용은 공식 블로그를 참고하세요.

AI and neural network visualization representing diffusion models

Waypoint-1의 핵심 특징

Waypoint-1은 '프레임-인과적(Frame-Causal)' 변환기를 백본으로 사용합니다. 이는 현재 프레임이 오직 과거 프레임의 정보만을 참조하여 생성된다는 의미로, 실시간 스트리밍에 필수적인 구조입니다. 1만 시간 분량의 다양한 게임 영상과 그에 대응하는 컨트롤 입력(키보드, 마우스), 텍스트 캡션으로 학습되었습니다.

가장 큰 차별점은 제로 레이턴시 컨트롤입니다. 기존 모델들은 몇 프레임마다 한 번씩 카메라 이동/회전 같은 단순한 제어만 가능했고, 레이턴시 문제가 있었습니다. 반면 Waypoint-1은 마우스로 자유로운 시점 이동, 키보드의 어떤 키든 입력이 가능하며, 각 입력이 바로 다음 프레임 생성에 반영됩니다.

High-performance gaming PC setup for real-time AI inference

기술 스펙 및 성능 비교

항목Waypoint-1 (Small, 2.3B)기존 인터랙티브 비디오 모델 일반적 특징
컨트롤 입력텍스트, 마우스(자유 이동), 키보드(모든 키)텍스트, 간헐적 카메라 제어(이동/회전)
레이턴시제로 레이턴시 (실시간 반영)수 프레임 지연 발생
생성 방식프레임 단위 Autoregressive 롤아웃전체 시퀀스 또는 지연 생성
추론 성능 (5090 GPU 기준)~30,000 토큰/초, 2단계: 60 FPS, 4단계: 30 FPS일반적으로 실시간(30FPS) 달성 어려움
학습 방식Diffusion Forcing 기반 사전학습 + Self-Forcing (DMD) 파인튜닝사전학습 비디오 모델 + 단순 제어 입력 파인튜닝

고성능 추론 엔진: WorldEngine

성능의 핵심은 전용 추론 라이브러리 WorldEngine에 있습니다. 순수 Python으로 구축되었으며 낮은 지연 시간과 높은 처리량을 위해 최적화되어 있습니다. AdaLN 특징 캐싱, 정적 롤링 KV 캐시, 행렬 곱셈 융합, torch.compile 활용 등 4가지 최적화로 인상적인 FPS를 달성합니다.

Immersive virtual reality environment creation

전망과 실무적 시사점

Waypoint-1은 게임 개발, 인터랙티브 미디어, 시뮬레이션 등 다양한 분야에 파급효과를 줄 수 있는 기술입니다. 완성된 콘텐츠를 스트리밍하는 것이 아니라, 규칙과 시드를 바탕으로 사용자 입력에 따라 즉시 콘텐츠를 생성하는 패러다임의 시작점이 될 수 있습니다.

물론 아직은 해상도나 비주얼 퀄리티, 세계의 일관성 등 해결해야 할 과제도 많습니다. 하지만 실시간 인터랙티브 생성 AI라는 방향성 자체는 매우 유망합니다. 개발자라면 WorldEngine 라이브러리를 통해 직접 실험해보거나, 생성형 AI와 게임/가상현실이 만나는 다음 흐름을 주시하는 것이 좋겠습니다.