HY-World 2.0: 이미지로 몰입형 3D 세계를 구축하다
- •HY-World 2.0은 텍스트나 단일 이미지를 기반으로 고해상도 3D 장면을 생성한다.
- •이 시스템은 내비게이션, 세계 확장, 상호작용 탐색을 위한 특화 모듈을 갖추고 있다.
- •연구진은 3D 월드 모델 연구의 활성화를 위해 해당 프로젝트를 오픈소스로 공개했다.
정적인 이미지를 생성하는 단계를 넘어 사용자가 직접 탐색 가능한 3D 환경을 구축하는 것은 인공지능 분야의 새로운 개척지이다. 이번에 공개된 HY-World 2.0은 텍스트나 사진 한 장을 입력받아 정교한 고해상도 3D 풍경으로 변환하는 프레임워크를 선보였다. 기존 생성형 모델이 단순히 픽셀 단위의 결과물을 만드는 데 그쳤다면, 이 시스템은 공간의 기하학적 구조를 재구성하여 비디오 게임처럼 사용자가 직접 이동하며 체험할 수 있는 공간을 설계한다.
이 놀라운 변환의 핵심 기술은 3D Gaussian Splatting이다. 이는 전통적인 3D 폴리곤 모델링 방식과 달리, 3D 공간 내의 색상과 밀도를 나타내는 수많은 부유 점들의 집합으로 대상을 표현한다. 학습 가능한 작은 기본 단위들을 활용함으로써 모델은 매우 상세하면서도 실시간 렌더링에 최적화된 효율적인 장면을 생성한다. HY-World 2.0은 이 복잡한 과정을 파노라마 생성, 경로 계획, 세계 확장, 최종 합성이라는 네 가지 단계로 간소화했다.
특히 이 모델이 주목받는 이유는 뛰어난 범용성에 있다. 텍스트는 물론 단일 뷰 이미지, 다중 뷰 사진, 심지어 영상 입력까지 처리할 수 있는 다중 모달 특성을 갖췄다. 이러한 유연성은 고가의 3D 스캔 장비나 전문 렌더링 소프트웨어를 갖추지 못한 일반 사용자들에게도 영화 같은 환경을 구축할 수 있는 진입 장벽을 낮춰주는 역할을 한다.
또한, 생성된 공간을 상호작용하며 탐색할 수 있는 플랫폼인 'WorldLens'의 탑재는 연구의 실용성을 한층 높였다. 단순히 이미지를 보는 것에 그치지 않고, 그 안에서 캐릭터를 움직이고 충돌을 감지하는 등 실제 환경과 같은 상호작용을 가능하게 하기 때문이다. 팀은 특정 소프트웨어에 종속되지 않는 엔진 독립적 아키텍처를 구현하여 범용성을 극대화했다.
마지막으로 모델 가중치와 기술적 세부 사항을 오픈소스로 공개한 결정은 학계와 개발자 커뮤니티에 큰 기회이다. 현실 세계의 물리적 속성을 이해하는 월드 모델 구축을 향한 경쟁이 치열한 가운데, 투명하고 견고한 프레임워크의 공유는 필수적이다. HY-World 2.0은 디지털 엔터테인먼트, 건축 시각화, 몰입형 교육 등 우리가 가상 현실을 개념화하고 구축하는 방식을 근본적으로 바꿀 미래를 보여준다.