들어가며: 온디바이스 AI의 도전과 해결책
AI 기능이 스마트폰, 태블릿, IoT 기기로 빠르게 확산되면서, 개발자들은 성능과 전력 효율 사이에서 끊임없이 균형을 잡아야 합니다. 영상 통화에서 실시간 배경 전환, 게임 캐릭터의 표정 애니메이션, 음성 인식 등 고급 AI 기능을 기기 내에서 실행하려면 발열 관리, 배터리 수명, 프레임 드롭 같은 현실적인 문제를 해결해야 하죠.
Google이 최근 공개한 LiteRT는 이러한 문제를 해결하기 위한 크로스 플랫폼 온디바이스 AI 프레임워크입니다. CPU, GPU는 물론 NPU(Neural Processing Unit) 가속을 지원하며, 통합 API 하나로 다양한 벤더의 NPU SDK를 추상화합니다. 이 글에서는 LiteRT의 핵심 기술과 실제 적용 사례, 그리고 한국 개발 생태계에서의 활용 가능성을 살펴보겠습니다.
참고 자료: 본 내용은 Google Developers Blog의 Building real-world on-device AI with LiteRT and NPU를 기반으로 재구성했습니다.

LiteRT의 핵심: NPU 가속의 실전 적용
LiteRT가 주목받는 이유는 단순한 NPU 지원을 넘어, 실제 프로덕션 환경에서 검증된 성능에 있습니다. Google Meet, Epic Games, Argmax 같은 대표 사례를 통해 그威力을 확인해보죠.
1. Google Meet: 25배 큰 모델, 동일한 전력 소비
Google Meet은 LiteRT의 NPU 가속을 활용해 기존보다 25배 큰 Ultra-HD 세그멘테이션 모델을 배포했습니다. 중요한 점은 추론 속도를 희생하지 않으면서 전력 소비를 일정하게 유지했다는 것입니다. 20~30분의 영상 통화 세션 내내 발열 문제 없이 고품질 배경 전환이 가능해졌습니다.
2. Epic Games: 실시간 MetaHuman 애니메이션
Epic Games의 Live Link Face 앱은 단일 카메라로 배우의 표정을 캡처해 실시간 MetaHuman 애니메이션으로 변환합니다. 이 작업은 매우 높은 연산량을 요구하는데, LiteRT를 NPU에서 실행함으로써 최대 30FPS의 실시간 성능을 달성했습니다.
3. Argmax: 음성 인식 SDK의 획기적 성능 향상
Argmax Pro SDK는 LiteRT와 협력하여 온디바이스 음성 인식 솔루션을 출시했습니다. GPU에서 NPU로 전환했을 때 2배 이상의 속도 향상을 기록했고, AOT(Ahead-Of-Time) 컴파일을 통해 기기 내 컴파일 단계를 제거해 지연 시간을 대폭 줄였습니다. 실제로 Heidi Health 같은 기업 고객은 긴 시간 동안의 실시간 전사(Transcription)를 배터리 영향 최소화하며 사용할 수 있게 되었습니다.
4. Google AI Edge Gallery: NPU 성능 테스트 앱
Google은 개발자들이 NPU 가속 성능을 직접 테스트할 수 있도록 AI Edge Gallery 앱을 업데이트했습니다. Gemma 모델과 벤치마킹 도구가 내장되어 있어, 자신의 기기에서 NPU의 진짜 성능을 확인할 수 있습니다. GitHub에서 소스 코드도 공개되어 있습니다.
코드 예제: LiteRT로 NPU 가속 사용하기
다음은 LiteRT를 사용해 NPU에서 모델을 실행하는 간단한 예제입니다. (Python 기준)
# LiteRT를 사용한 NPU 가속 추론 예제
import litert
# 1. 모델 로드 (TFLite 형식)
interpreter = litert.Interpreter(model_path="model.tflite")
# 2. NPU 델리게이트 설정 (자동 감지)
# NPU가 없으면 CPU/GPU로 fallback
interpreter.set_delegate(litert.NpuDelegate())
# 3. 입력 데이터 준비
input_data = preprocess_image("input.jpg")
interpreter.set_tensor(interpreter.get_input_details()[0]['index'], input_data)
# 4. 추론 실행 (NPU 가속)
interpreter.invoke()
# 5. 결과 출력
output_data = interpreter.get_tensor(interpreter.get_output_details()[0]['index'])
print(f"추론 결과: {output_data}")
NPU 델리게이트는 현재 Google Tensor, MediaTek, Qualcomm Snapdragon 등 주요 SoC를 지원합니다.

크로스 플랫폼 NPU 지원과 한계
LiteRT는 모바일을 넘어 산업용 IoT(예: Qualcomm Dragonwing IQ8 시리즈)와 AI PC(Intel Core Ultra, OpenVINO 통합) 까지 지원 범위를 넓히고 있습니다. Arduino VENTUNO Q 보드에서도 Gemma 4 모델을 실행할 수 있어 로보틱스나 스마트 제조 같은 고신뢰도 애플리케이션에도 적용 가능합니다.
성능 검증: Google AI Edge Portal
Google은 100개 이상의 인기 스마트폰에서 ML 워크로드 성능을 측정하는 AI Edge Portal을 제공합니다. 개발자는 AOT와 JIT 중 어떤 배포 방식을 선택할지 데이터 기반으로 결정할 수 있습니다.
주의사항 및 한계
- NPU 지원 기기 한정: NPU 가속의 진가를 보려면 NPU가 탑재된 기기가 필요합니다. 구형 기기에서는 CPU/GPU로 fallback되므로 성능 차이가 클 수 있습니다.
- 모델 호환성: 모든 모델이 NPU에서 동일한 성능을 내는 것은 아닙니다. NPU 아키텍처에 최적화된 모델(TFLite 변환 시 양자화 등)을 사용해야 최대 효과를 볼 수 있습니다.
- 한국 개발 환경: 국내에서는 갤럭시(엑시노스/퀄컴)와 아이폰(Apple Silicon)이 주류입니다. LiteRT의 NPU 지원은 안드로이드 기반이므로 iOS는 별도 접근이 필요합니다. 다만, 크로스 플랫폼 프레임워크이므로 Flutter나 React Native와의 연동 가능성도 열려 있습니다.
함께 보면 좋은 글
- AWS Verified Permissions로 구현하는 실전 세분화 인가 Convera 사례에서 배우는 것
- 터미널 코딩의 판을 바꾸다 Gemini 3 Flash, 이제 CLI에서 사용 가능

결론: 온디바이스 AI의 미래와 실무 적용 조언
LiteRT와 NPU 가속의 조합은 온디바이스 AI의 성능과 효율성을 한 단계 끌어올렸습니다. 특히 통합 API로 벤더 종속성을 제거하고, 실제 프로덕션에서 검증된 사례를 제공한다는 점이 개발자에게 큰 매력입니다.
실무 적용을 위한 3가지 조언:
- 모델 최적화 우선: TFLite 변환 시 양자화(FP16, INT8)를 적용해 NPU 친화적으로 만드세요.
- AOT vs JIT 선택: 실시간성이 중요한 애플리케이션(예: 음성, 영상)은 AOT를, 모델 업데이트가 잦은 경우 JIT를 고려하세요.
- AI Edge Portal 활용: 타겟 기기에서 실제 성능을 측정하고, NPU 가속이 효과적인지 데이터로 확인하세요.
온디바이스 AI는 더 이상 미래의 이야기가 아닙니다. LiteRT와 NPU를 활용해 지금 당장 당신의 앱에 AI를 더해보세요. 자세한 내용은 공식 문서를 참고하세요.