애플, 초소형 AI로 대형 모델 압도…이미지 캡션 기술 혁신
||2026.03.26
||2026.03.26
[디지털투데이 AI리포터] 애플 연구진이 더 작으면서도 높은 정확도를 구현한 이미지 캡션 인공지능(AI) 모델 훈련 방식을 공개했다.
이번 연구는 '루비캡: 루브릭 기반 강화 학습을 활용한 고밀도 이미지 캡션 생성'(RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning)이라는 제목으로 발표됐으며, 위스콘신대학교 매디슨 캠퍼스와의 협업을 통해 진행됐다. 연구진은 이미지 내 여러 요소를 세밀하게 설명하는 ‘밀도 높은 이미지 캡션'(Dense Image Captioning) 모델을 개발하는 데 초점을 맞췄다.
해당 기술은 단순 이미지 설명을 넘어 비전-언어 모델, 텍스트-이미지 생성, 이미지 검색, 접근성 도구 개선 등 다양한 분야에서 활용될 수 있을 것으로 기대된다.
기존 밀도 높은 이미지 캡션 모델은 정확성과 효율성 측면에서 한계를 보여왔다. 이를 개선하기 위해 연구진은 픽스모캡(PixMoCap)과 덴스퓨전-4V-100K(DenseFusion-4V-100K) 데이터셋에서 약 5만 개 이미지를 무작위로 추출해 실험을 진행했다.
이후 제미나이2.5 프로, GPT-5, 큐원2.5-VL-72B-인스트럭트등 기존 비전-언어 모델을 활용해 다양한 캡션을 생성하고, 루비캡 모델이 생성한 결과와 비교했다.
특히 제미나이2.5프로는 이미지와 캡션을 분석해 모델 간 일치 및 누락 요소를 식별하는 평가 기준을 제공했으며, 큐원2.5-7B-인스트럭트가 각 캡션을 점수화해 학습 과정에 반영했다. 이처럼 다중 모델 기반 피드백 구조를 통해 루비캡은 보다 정밀한 학습이 가능해졌다.
연구진은 20억, 30억, 70억 개 파라미터 규모의 루비캡 모델을 개발했으며, 특히 30억 파라미터 모델(RubiCap-3B)은 일부 벤치마크에서 72억 파라미터 모델을 능가하는 성능을 보였다.
이는 고성능 이미지 캡션 모델이 반드시 대규모일 필요는 없으며, 효율적인 학습 방식이 성능을 크게 좌우할 수 있음을 시사한다.
고객님만을 위한 맞춤 차량
