엔비디아, 1초 만에 4K 이미지 뽑았다…생성 AI 판 뒤집을 ‘PiD’ 공개

엔비디아가 잠재 표현을 고해상도 이미지로 직접 변환하는 생성 AI 기술 PiD를 공개했다. [사진: 엔비디아]

[디지털투데이 AI리포터] 엔비디아가 이미지 생성 AI의 잠재 표현을 고해상도 이미지로 직접 변환하는 기술 "PiD"를 공개했다.

27일(현지시간) 온라인 매체 기가진에 따르면, PiD의 핵심은 디코딩과 업샘플링을 하나의 생성 모듈로 통합한 데 있다. 기존에는 저해상도로 먼저 디코딩한 뒤 초해상도 모델로 이미지를 확대하는 단계형 방식이 주로 사용됐다.

현재 고해상도 이미지 생성은 압축된 잠재 공간에서 이미지를 생성한 뒤 디코더를 통해 고해상도 이미지로 변환하는 구조가 일반적이다. 다만 기존 디코더는 인코더 출력 복원에 최적화돼 있어 세부 묘사를 새롭게 합성하는 능력과 메가픽셀급 처리 효율에 한계가 있었다.

엔비디아 연구팀은 잠재 디코딩 과정을 "조건부 픽셀 확산" 방식으로 재정의했다. PiD는 잠재 표현이 이미지의 전체 구조와 의미를 제공하고, 픽셀 확산 모델이 고해상도 세부를 직접 합성하는 구조다. 기반 모델은 픽셀DiT(PixelDiT)이며, 여기에 경량 컨트롤넷형 어댑터를 추가했다.

해당 어댑터는 노이즈가 포함된 잠재 표현을 모델에 주입하고, 노이즈 양에 따라 잠재 표현 반영 비율을 조절한다. 엔비디아는 이를 통해 4배 또는 8배 업스케일 이미지를 낮은 지연 시간으로 생성할 수 있다고 설명했다.

연구팀은 512x512 이미지에 대응하는 잠재 표현을 2048x2048 픽셀 이미지로 변환하는 작업을 소비자용 RTX 5090에서 1초 미만, 피크 메모리 13GB 환경에서 처리했다고 밝혔다. GB200 그래픽처리장치(GPU)에서는 같은 작업을 최단 210ms에 수행했다. 엔비디아는 확산 기반 초해상도 단계형 파이프라인과 비교해 약 6배 빠르며, 시각적 충실도도 높았다고 평가했다.

PiD는 완전히 노이즈가 제거된 잠재 표현뿐 아니라 중간 단계의 잠재 표현도 처리할 수 있다. 이에 따라 기반 잠재 확산 모델의 추론을 중간에 멈춘 뒤, 남은 과정을 PiD가 이어받아 고해상도 이미지 변환을 수행할 수 있다.

엔비디아는 DMD2 증류 기법을 적용해 추론 단계를 4단계까지 줄였다. 조건 없는 추론 과정을 별도로 수행할 필요도 줄여 고해상도화 전반을 단순화하는 데 초점을 맞췄다.

PiD는 기존 VAE뿐 아니라 SigLIP, DINOv2 등 의미 표현 기반의 RAE 계열 모델에도 적용할 수 있다. 의미 구조는 유지하면서도 저수준 외형 정보가 부족해지기 쉬운 잠재 표현에 생성 방식으로 세부를 보완하는 구조다.

학습 데이터에는 멀티스펙트-4K-1M(MultiAspect-4K-1M), 렌더링 된 PDF 데이터, 내부 조달 고해상도 이미지 등이 활용됐다. 엔비디아는 Q-Align으로 저품질 샘플을 걸러낸 뒤 총 260만장의 고품질 이미지를 학습에 사용했다고 밝혔다.