애플, 초대형 비디오 AI 모델 개발…장시간 영상 분석 기술 공개
||2025.08.25
||2025.08.25
[디지털투데이 AI리포터] 애플이 장시간 영상 분석에 최적화된 AI 모델을 개발하며 기존 대규모 언어 모델(LLM)이 가진 한계를 극복했다고 22일(현지시간) IT매체 나인투파이브맥이 전했다.
기존 LLM은 영상의 모든 프레임을 일일이 분석해 중복된 정보를 대량으로 생성하는 비효율적 방식을 사용했다. 반면 애플은 특정 프레임만 선택적으로 분석하는 방식을 적용해 처리 용량 문제를 해결했다.
애플이 새롭게 개발한 슬로우패스트-라바-1.5(SlowFast-LLaVA-1.5)는 오픈소스 모델 슬로우패스트-라바(SlowFast-LLaVA)를 기반으로 이미지와 영상을 동시에 학습할 수 있도록 만든 모델이다. 이 모델은 10억, 30억, 70억 파라미터 버전으로 구성되며 기존 대형 모델을 뛰어넘는 성능을 보여준다.
특히 장시간 영상 분석 벤치마크인 롱비디오벤치(LongVideoBench)와 다중 작업 장기 비디오 이해(MLVU)에서 모든 모델 크기에서 최고 성능을 기록했고 이미지 분석에서도 뛰어난 결과를 보였다.
다만 모델은 최대 128프레임까지만 처리할 수 있다. 따라서 긴 영상에서는 빠른 스트림에서는 96프레임, 느린 스트림에서는 32프레임을 균등 간격으로 선택해 분석한다.
이번 연구는 애플이 공개 데이터셋만을 활용해 개발한 점에서도 의미가 크며, 슬로우패스트-라바-1.5는 현재 깃허브와 허깅페이스에서 오픈소스로 제공된다.
고객님만을 위한 맞춤 차량
