사진 1장만으로 3D 정보 자동 생성…메타 ‘VGGT’ 공개
||2025.03.27
||2025.03.27
[디지털투데이 AI리포터] 메타와 영국 옥스퍼드대학교 연구팀이 이미지만으로 3D 정보를 자동 추출하는 AI 모델 'VGGT'를 발표했다.
26일(현지시간) 온라인 매체 기가진에 따르면 기존 기술은 복잡한 계산이 필요했지만 VGGT는 단일 이미지에서 카메라 위치, 물체의 깊이, 3D 공간 내 점 위치 등을 빠르게 계산할 수 있다.
VGGT는 'Visual Geometry Grounded Transformer'의 약자로, 단일 피드포워드 뉴럴 네트워크로 다양한 3D 정보를 동시에 처리할 수 있는 것이 특징이다. 입력된 이미지에서 카메라 파라미터, 깊이 맵, 3D 포인트 트랙 등을 직접 추론하며 최적화 과정 없이 1초 이내에 고품질 3D 재구성을 구현한다.
또한 비교적 간단한 설계로 3D 주석이 포함된 대규모 데이터셋에서 학습됐다. 입력 이미지는 먼저 'DINO'라는 기술을 통해 작은 패치로 분할된 후 '카메라 토큰'이 추가된다. 이 카메라 토큰은 카메라 위치와 방향을 예측하는 데 중요한 역할을 한다.
이후 모델의 중심이 되는 부분에서 '프레임와이즈 어텐션'과 '글로벌 어텐션'이 교차 작동해 이미지 내 디테일과 여러 이미지 간 일관성을 확보한다. 처리된 정보는 '카메라 헤드'와 'DPT 헤드'로 전달돼 카메라 파라미터와 깊이 맵, 3D 포인트를 생성한다.
실험 결과, VGGT는 로마 콜로세움과 같은 복잡한 구조물뿐만 아니라 실내 공간에서도 정교한 3D 정보를 생성했다. 다른 AI 모델과 비교해도 구조를 더 정확히 재현하는 것으로 나타났다. 연구팀은 3D 컴퓨터 비전 연구를 가속화하기 위해 VGGT 코드를 깃허브에 공개했으며, 허깅페이스에서 데모를 체험할 수 있다.
고객님만을 위한 맞춤 차량