텐센트, 사진을 3D로 만드는 AI 모델 공개…영상 제작·재구성 혁신 예고
||2025.09.04
||2025.09.04
[디지털투데이 AI리포터] 중국 IT 기업 텐센트가 단일 이미지로 3D 일관성 있는 영상 시퀀스를 생성하는 AI 모델 훈위안 월드-보이저(Hunyuan World-Voyager)를 공개했다.
3일(현지시간) IT매체 아스테크니카에 따르면, 훈위안 월드-보이저는 RGB 영상과 깊이 정보를 동시에 생성해 전통적인 3D 모델링 없이도 3D 재구성이 가능한 영상을 만들어낸다.
이 시스템이 만드는 영상은 진정한 3D 모델이 아닌 2D 영상 프레임이지만, 생성된 영상은 공간적 일관성을 유지해 마치 카메라가 3D 공간을 이동하는 것처럼 보인다. 한 번 생성 시 약 49프레임(약 2초) 분량이며 여러 클립을 연결하면 몇 분 길이의 시퀀스도 가능하다.
훈위안 월드-보이저는 영상과 깊이 정보를 결합하고 월드 캐시(World Cache)라는 3D 포인트 클라우드를 활용해 일관성을 유지한다. 이전 프레임에서 생성된 3D 포인트를 2D로 투영하여 새 프레임 생성 시 참조함으로써, 공간적 일관성을 검증하는 구조다.
하지만 AI 모델이 훈련 데이터의 패턴을 모방하는 방식이므로 긴 영상이나 360도 회전 등에서는 작은 오류가 누적되어 완벽한 일관성을 유지하기 어렵다.
훈위안 월드-보이저는 540p 해상도 기준 최소 60GB, 권장 80GB 이상의 GPU 메모리가 필요하며 멀티 GPU 환경에서도 xDiT 프레임워크를 통해 병렬 처리할 수 있다.
텐센트는 모델 가중치를 허깅페이스(Hugging Face)에 공개했지만, EU·영국·한국에서는 사용이 제한되며, 월간 1억명 이상이 사용하는 상업적 용도에는 별도 라이선스가 필요하다.
고객님만을 위한 맞춤 차량
