한컴에 직접 묻다··· HWP·HWPX의 허와 실 [HWP 족쇄⑤]
||2025.08.08
||2025.08.08
HWP 문서 포맷이 AI 학습의 걸림돌이라는 비판이 확산되는 가운데, 한글과컴퓨터(이하 한컴)는 “문제는 포맷이 아니라 관행”이라는 입장을 내놨다. HWPX는 기계 판독이 가능하며, 모든 HWP 문서에서도 데이터 추출이 가능하다는 것이다. 한컴은 “기술적 폐쇄성 논란은 오해”라며, 공공기관의 문서 생산 방식이 구조화 작업을 어렵게 만든다고 반박했다.
최근 판교 한컴 본사에서 만난 신재욱 한컴 AI컨설팅팀장은 “한컴이 제공하는 오픈소스와 변환기를 활용하면 HWPX는 물론, 1990년대 한글 2.0·3.0 등 구버전 HWP 문서에서도 구조화된 데이터를 추출할 수 있다”고 말했다.
“HWP도 데이터 추출 가능…오픈소스도 공개 중”
그는 “국가기록물 등 오래된 문서도 AI 학습 데이터셋으로 전환이 가능하다”고 설명했다. 또 문서 버전에 상관없이 한글 내에 탑재된 변환기를 통해 정보 손실을 최소화할 수 있다고 덧붙였다. 다만 진본성 보존을 중시하는 정부 기관과의 조율은 필요하다고 봤다. HWPX로 손쉽게 바꿀 수 있지만, 이 과정에서 작성일·작성자·버전 같은 메타데이터 일부가 훼손될 수 있다는 것이다.
그는 또 HWPX 도입이 늦어진 배경도 설명했다. 그에 따르면 한컴은 2010년 XML 기반의 HWPX 개발을 끝마쳤다. 다음해인 2011년에는 한국산업표준(KS)으로 제정도 마쳤다. 다만 초기엔 정부의 전자문서 시스템 온-나라와 호환성 문제가 있어 확산되지 못했다는 것이 그의 설명이다. 그는 “2021년 온-나라 2.0 도입과 행정안전부 가이드라인 개정 이후에야 전환이 이뤄졌다”고 말했다.
신 팀장은 또 HWPX가 AI 학습에 부적합하다는 지적에도 반박했다. 신재욱 팀장은 “데이터 손실 문제는 DOCX, ODT 등 다른 포맷에서도 마찬가지로 발생할 수 있다”고 반박했다. 그는 “포맷보다 어떤 솔루션을 쓰느냐가 데이터 품질을 결정하는 핵심 변수다”라며 “특정 포맷만의 문제로 일반화하는 것은 기술적 사실과 다르다”고 말했다.
“진짜 문제는 서식 관행…표 안의 표, 규격 불일치”
신재욱 팀장은 기술보다 더 본질적인 문제는 공공부문 문서 작성 문화라고 지적했다. 그는 “행안부가 2022년부터 AI 학습에 적합한 단순 서식을 권장하고 있지만, 실제 공공문서는 ‘표 안의 표’, 복잡한 병합 셀, 비일관 서식 등 구조화하기 어려운 형식이 여전히 많다”고 지적했다.
그는 이어 “한컴은 오히려 이런 복잡한 문서를 처리할 수 있는 기능을 계속 개발·공급하고 있고 일부 기관과는 수백만 건 단위의 구조화 협업을 진행하고 있다”고 덧붙였다.
신 팀장은 HWPX 오픈소스 생태계가 활성화되지 않았다는 지적은 일부 인정했다. 그는 “개발자의 요구가 있을 경우 깃허브에 지속적으로 자료를 공개하고 있으며, 공식 홈페이지에서도 별도로 문서 포맷을 제공하고 있다”고 밝혔다. 다만 “개발자 커뮤니티 활성화는 아직 미흡하다”며 문제점을 인정했다.
그는 또 해외에서 HWP·HWPX 포맷의 사용 사례가 드물고 글로벌 인지도가 낮은 만큼 생태계 확장이 향후 과제라고 덧붙였다.
천선우 기자
swchun@chosunbiz.com
고객님만을 위한 맞춤 차량
