메타, AI 생성 비디오로 훈련한 3D 생성 모델 공개..."향후 확장성 주목"
||2024.08.11
||2024.08.11
메타가 단일 이미지나 텍스트 설명으로부터 고품질 3D 콘텐츠를 생성하는 모델 ‘V퓨전3D(VFusion3D)’을 공개했다. 3D 훈련 데이터 부족 문제를 해결하기 위해 인공지능(AI) 비디오 모델이 생성한 합성 데이터로 훈련한 것이 특징이다.
벤처비트는 9일(현지시간) 메타와 옥스포드대학교 연구진이 비디오 생성 AI 모델을 활용해 미세조정한 3D 생성 모델 'V퓨전3D’에 관한 논문을 아카이브에 게재했다고 보도했다.
V퓨전3D은 사전 학습된 비디오 확산 모델을 활용, 확장 가능한 3D 생성 모델을 구축하는 새로운 방법을 제시한다.
3D 생성 파운데이션 모델을 개발하는 데 가장 큰 장애물은 3D 데이터의 부족 문제다. 텍스트나 이미지, 비디오와 달리, 3D 데이터는 구하기 어렵다.
이 문제를 해결하기 위해 텍스트, 이미지, 비디오의 방대한 양으로 훈련된 비디오 디퓨전 모델을 3D 데이터의 소스로 활용했다.
기존 비디오 확산 모델을 미세조정해 다양한 각도에서 멀티뷰 비디오 시퀀스를 생성하고, 이 합성 300만개로 V퓨전3D 모델을 훈련했다.
그 결과 이 모델은 단일 이미지로부터 수초 안에 3D 객체를 생성할 수 있다. 첨단 3D 생성 모델과 비교한 인간 평가자의 선호도 테스트에서도 90% 이상의 우위를 차지했다.
연구진은 V퓨전3D의 '확장성'을 강조했다.
"더 강력한 비디오 AI 모델이 개발되고 더 많은 3D 데이터가 미세조정을 위해 제공할 수 있다"라며 "이 때문에 V퓨전3D의 성능은 계속 빠르게 향상될 것"이라고 밝혔다.
한편, 2D 이미지나 텍스트 프롬프트를 기반으로 3D 에셋을 생성하는 기술은 많은 기업이 뛰어든 분야다. 게임 제작이나 이커머스 등 수요가 많고, 곧바로 수익을 창출할 수 있기 때문이다.
앞서 지난 3월에는 엔비디아가 간단한 텍스트 프롬프트에서 1초 만에 3D 개체와 동물 이미지 등을 실시간으로 생성할 수 있는 '라떼3D(Latte3D)'를 선보였으며, 스태빌리티 AI도 360도 3D 렌더링 영상 제작이 가능한 AI 모델을 출시한 바 있다.
또 최근에는 3D 객체 생성 속도를 높이는 경쟁을 펼치고 있다.
메타는 지난달 텍스트 설명으로 1분 만에 고품질 3D 에셋 생성 AI 도구 ’3D젠(Meta 3D Gen)’을 선보였다. 이어 스태빌리티 AI는 이달 초 0.5초 만에 3D 비디오를 생성하는 ‘스테이블 패스트 3D(SF3D)’ 모델을 공개하기도 했다.
박찬 기자 cpark@aitimes.com