사진 속 글자 추출·복사하는 AI…中 스타트업 Z.ai 눈길
||2026.02.05
||2026.02.05
[디지털투데이 이윤서 기자] 중국 인공지능(AI) 스타트업 Z.ai가 문서 이해에 특화된 멀티모달 광학문자인식(OCR) 모델 'GLM-OCR'을 오픈소스로 공개해 시장의 이목을 끌고 있다.
4일(현지시간) 온라인 매체 기가진에 따르면, GLM-OCR은 9억 파라미터 규모의 경량 모델이지만 복잡한 문서 레이아웃을 고정밀로 분석·추출하는 성능을 목표로 개발됐다.
Z.ai는 GLM-OCR이 이미지와 글자를 함께 이해하도록 설계된 모델이라고 설명했다. 사진·스캔본에서 글자와 배치(레이아웃)를 읽어내는 시각 처리 모듈과, 읽어낸 내용을 문장으로 정리하는 언어 처리 모듈을 결합했다. 또 한 번에 더 많은 정보를 예측하도록 학습 방식을 개선해 인식 정확도와 학습 효율을 높였다고 덧붙였다.
실제 문서 처리 과정은 '레이아웃 분석→문자 인식' 순으로 진행된다. GLM-OCR은 문서의 배치를 먼저 파악한 뒤, 그 결과를 바탕으로 글자를 동시에 인식하는 2단계 방식으로 설계됐다. 표·주석 등 요소가 섞이면 구조가 쉽게 깨지던 기존 OCR의 한계를 보완해, 문서 전체 배치를 고려한 인식이 가능하다는 설명이다.
성능 수치도 공개했다. Z.ai에 따르면 GLM-OCR은 문서 인식 성능을 비교하는 평가(OmniDocBench V1.5)에서 94.62점을 기록했다. 수식이나 표처럼 인식 난도가 높은 요소, 그리고 문서 내용을 항목별로 정리해 뽑아내는 작업에서도 좋은 성능을 보였다는 설명이다.
운영 측면에서는 '가벼운 모델'이라는 점을 내세웠다. PC 같은 로컬 환경에서도 비교적 빠르게 돌릴 수 있어, 문서를 외부 서버로 보내지 않고 내부에서 처리할 수 있다는 점이 장점으로 꼽힌다. Z.ai는 속도 테스트에서 PDF는 1초에 1.86페이지, 이미지는 1초에 0.67장을 처리했다고 밝혔다. 복잡한 표나 여러 언어가 섞인 문서도 인식해 결과를 HTML·JSON 형태로 내보낼 수 있도록 설계했다고 덧붙였다.
GLM-OCR은 인공지능(AI) 커뮤니티 허깅페이스(Hugging Face)의 'zai-org' 리포지토리를 통해 공개됐다. 모델 본체는 MIT 라이선스로 배포되며, 문서 레이아웃 분석에 쓰인 일부 구성요소(PP-DocLayoutV3)에는 아파치 라이선스 2.0이 적용된다.
GLM-OCR은 '문서 인식은 무거운 모델이 필요하다'는 통념을 흔드는 사례로도 읽힌다. 기업 입장에선 외부 클라우드로 문서를 보내지 않고도 내부 PC·서버에서 OCR을 돌릴 수 있다는 점이 매력 포인트다. 오픈소스 공개를 계기로 실제 현업에서 활용 사례가 빠르게 쌓일지, 경량 OCR 경쟁이 더 거세질지 관심이 쏠린다.
Introducing GLM-OCR: SOTA performance, optimized for complex document understanding.
— Z.ai (@Zai_org) February 3, 2026
With only 0.9B parameters, GLM-OCR delivers state-of-the-art results across major document understanding benchmarks, including formula recognition, table recognition, and information extraction.… pic.twitter.com/2c6iSsaXYs
고객님만을 위한 맞춤 차량
