AI가 당신의 PC를 조작한다…영상 기반 PC 조작 AI 시스템 ‘FDM-1’ 등장
||2026.02.27
||2026.02.27
[디지털투데이 AI리포터] 샌프란시스코에 본사를 둔 '스탠다드 인텔리전스'(Standard Intelligence)가 인공지능(AI) 모델 'FDM-1'을 발표했다. FDM-1은 1100만 시간의 영상을 학습했으며 '세계 최초의 범용 컴퓨터 조작 모델'로 소개되고 있다.
26일(현지시간) 온라인 매체 기가진에 따르면, PC 조작이 가능한 AI는 이미 상용화됐지만, 대부분 스크린샷 기반 비전언어모델(VLM)에 강화학습을 적용하는 방식으로 개발됐다. 이러한 방식은 CAD 애플리케이션과 같은 장시간 작업에는 적합하지 않으며, 스크린샷에 대한 주석 작업에 막대한 시간과 인력이 필요하다.
FDM-1은 기존 VLM 기반 AI와 달리, 인터넷에 존재하는 '영상 편집' 및 '코딩 라이브 스트리밍' 영상 등 총 1100만 시간의 영상을 학습했다. 또한, 영상 주석 작업을 자동화하기 위해 'IDM' 시스템도 개발했다.
실사 영상의 주석 작업은 어렵지만, PC 조작 영상은 화면에 'h'가 표시되면 'h키를 눌렀다'는 식으로 화면 변화와 조작을 1대1로 연결할 수 있어 자동화가 비교적 쉽다. FDM-1 개발 당시, 4만 시간 분량의 영상을 수작업으로 주석 처리한 후, IDM을 활용해 1100만 시간의 영상을 자동으로 주석 처리했다.
또한, PC 조작에 특화된 인코더를 개발해 3만6000프레임의 영상을 20만 토큰으로 표현하는 고효율성을 확보했다. 같은 20만 토큰으로 제미나이는 775프레임, 클로드는 162프레임만 처리할 수 있다. 개발팀은 '약 2시간 분량의 30fps 영상을 100만 토큰으로 압축 가능'하며, FDM-1의 효율성을 강조했다.
적은 토큰으로 긴 영상을 처리할 수 있어 FDM-1은 CG 및 CAD 애플리케이션과 같은 장시간 작업도 자동화할 수 있다. 또한, 차량 조작을 화살표 키로 대체해 FDM-1을 자동 운전 시스템으로 활용할 수도 있다.
스탠다드 인텔리전스는 'FDM-1을 통해 PC 조작 AI가 데이터 제한에서 연산 제한으로 전환할 수 있다'고 강조하며, 성과를 내세웠다.
고객님만을 위한 맞춤 차량
