화면 읽고 클릭·입력 다 해준다…작업 수행형 AI 에이전트 ‘홀로3’ 공개
||2026.04.09
||2026.04.09
[디지털투데이 홍진주 기자] 프랑스 인공지능(AI) 스타트업 H컴퍼니(H Company)가 화면을 읽고 클릭, 입력, 앱 간 작업까지 수행할 수 있는 AI 모델 '홀로3'(Holo3)를 공개했다.
9일(현지시간) 온라인 매체 기가진에 따르면, 오픈소스 버전인 '홀로3-35B-A3B'(Holo3-35B-A3B)는 허깅페이스에서 무료로 이용할 수 있다.
홀로3는 웹, 데스크톱, 모바일 환경에서 동작하는 대규모 비전언어모델(VML)이다. 화면 정보를 읽고 버튼을 누르거나 폼을 채우는 등 상황에 맞는 조작을 수행하도록 설계됐다.
이 모델은 단순한 클릭 자동화를 넘어 여러 앱을 오가는 작업도 처리한다. 예를 들어 PDF 파일에서 장비 가격 정보를 추출한 뒤 직원별 남은 예산과 대조하고, 승인 또는 반려 메일을 보내는 방식이다. PDF, 스프레드시트, 이메일을 넘나들며 문서를 읽고 계산하고 정보를 전달한 뒤 작업 상태를 유지한 채 다음 단계를 이어갈 수 있다.
오픈소스 버전인 '홀로3-35B-A3B'는 '큐원3.5-35B-A3B'(Qwen3.5-35B-A3B)를 기반으로 미세조정했다. 전문가 혼합(MoE) 구조를 적용해 총 파라미터 수는 350억개, 실제 동작에 쓰는 활성 파라미터 수는 30억개다. 이미지와 텍스트를 입력받아 텍스트를 생성하는 멀티모달 AI로 구성됐다.
학습에는 오픈소스 데이터세트와 함께 AI용으로 만든 대규모 조작 데이터, 사람이 검수해 주석을 단 데이터가 쓰였다. 학습에 쓰지 않은 상황에도 대응하기 쉽도록 훈련했고, 선별한 강화학습도 결합했다. 기업용 시스템에 가까운 UI와 조작 환경을 코드 생성 에이전트로 자동 구축하는 '합성환경공장'(Synthetic Environment Factory)도 마련해 업무와 유사한 조작을 학습시켰다.
성능도 공개했다. 홀로3-35B-A3B는 국제 표준 벤치마크 'OS월드-베리파이드'(OSWorld-Verified)에서 77.8%를 기록했다. 상위 모델 홀로3-122B-A10B는 같은 벤치마크에서 78.85%를 기록했다. 이 모델의 총 파라미터 수는 1220억개, 활성 파라미터 수는 100억개다.
H컴퍼니는 전자상거래, 업무 소프트웨어, 협업, 다중 앱 연동 등 4개 분야 486개 과제로 구성한 자체 벤치마크 'H 기업 벤치마크'(H Corporate Benchmark)도 제시했다. 하나의 앱 안에서 끝나는 짧은 작업부터 여러 앱을 넘나드는 긴 워크플로까지 포함한다.
한편, 무료 구간에서는 홀로3-35B-A3B를 API로 체험할 수 있으며 요청 제한은 분당 10회다. 상위 모델 홀로3-122B-A10B는 유료 구간에서만 제공한다.
고객님만을 위한 맞춤 차량
