구글, 영상 생성 모델 Gemini Omni 공개
- •구글이 자연어로 영상을 생성하고 편집할 수 있는 멀티모달 모델 Gemini Omni를 출시했다.
- •모델 시리즈의 첫 주자인 Gemini Omni Flash는 2026년 5월 19일부터 유료 구독자와 YouTube Shorts 사용자에게 제공된다.
- •Gemini Omni는 SynthID 디지털 워터마킹을 적용해 AI 생성 영상을 식별하며, 개인화된 디지털 아바타 제작 기능을 지원한다.
구글이 모든 종류의 입력을 영상 콘텐츠로 변환할 수 있는 네이티브 멀티모달 모델 제품군 Gemini Omni를 공개했다. 2026년 5월 19일 구글 딥마인드(Google DeepMind)의 CTO이자 최고 AI 아키텍트인 코라이 카부쿠올루(Koray Kavukcuoglu)가 발표한 이 플랫폼은 텍스트, 이미지, 오디오, 비디오를 조합해 고품질의 사실적인 영상을 생성한다. 시리즈의 첫 번째 모델인 Gemini Omni Flash는 현재 Gemini 앱, 구글 플로우(Google Flow), YouTube Shorts 사용자를 대상으로 순차적으로 배포되고 있다.
이 모델은 대화를 통한 영상 편집 기능을 지원한다. 자연어 지시 사항을 통해 캐릭터, 물리 법칙, 장면 세부 사항을 수정할 수 있으며, 여러 번의 대화 과정에서도 일관성을 유지한다. Gemini Omni는 물리 법칙인 중력, 운동 에너지, 유체 역학에 대한 지식을 활용해 영상의 현실감을 높인다. 사용자는 다양한 입력을 참조해 시각적 언어를 정의하거나 특정 스타일, 동작, 효과를 적용할 수 있다. 또한 사용자의 외모와 목소리를 복제한 디지털 아바타 생성 기능도 포함됐다.
구글은 Gemini 앱, 크롬(Chrome), 구글 검색(Google Search) 전반에서 콘텐츠를 검증할 수 있도록 모든 출력물에 SynthID 디지털 워터마킹을 통합했다. Gemini Omni Flash는 2026년 5월 19일부터 Google AI Plus, Pro, Ultra 구독자에게 제공되며, YouTube Shorts 및 YouTube Create 앱 사용자에게는 무료로 제공된다. 기업 고객과 개발자는 수주 내에 API를 통해 접근할 수 있을 예정이다. 이번 발표는 이전의 이미지 생성 기술인 나노 바나나(Nano Banana)에서 한 단계 더 나아가 복잡하고 물리 법칙에 기반한 영상 생성으로 기술적 진보를 보여준다.