KT, ‘소버린 AI’ 정조준…"국가 파운데이션 모델에 '믿음' 심겠다"
||2025.07.03
||2025.07.03
[디지털투데이 황치규 기자]KT가 자체 개발한 거대언어모델(LLM) '믿:음 2.0'을 공개하고 한국적 AI 전파에 박차를 가한다. 정부 '독자 AI 파운데이션 모델' 프로젝트에도 참여해 소버린 AI 추진에 힘을 실을 예정이다.
KT는 기업과 개인, 공공 누구나 상업적으로 활용할 수 있도록 믿:음 2.0을 AI 개발자 플랫폼 허깅페이스에 오픈소스로 공개한다고 3일 밝혔다.
KT는 앞서 '한국적' AI를 강조해왔다. 한국적 AI는 한국 정신과 방식, 지식을 기반으로 구현한 한국에 가장 잘 맞는 AI를 뜻한다. 실제로 한국의 정서까지 담아낸 게 믿:음 2.0의 특징이다. 가족과 대화 내용을 넣고 소통 상 문제점을 물으면 '감정적 지지 부족'이나 '공감 부족' 같은 요소를 짚어내는 식이다. 단순히 대화 내용만으로 판단하는 AI는 하지 못하는 일이다.
KT는 K-데이터 얼라이언스를 통해 확보한 데이터를 200여 카테고리로 관리·적용했다. 국내 발간물, 법률 및 특허 문서, 각종 사전 등 방대한 한국 특화 데이터를 학습에 활용했다. 한국어 구조와 언어학적 특성을 반영한 토크나이저를 적용하는 한편 저작권 이슈가 있는 데이터는 모두 제거해 '책임있는 AI'도 구현했다.
신동호 KT GEN AI 랩장(CAIO)은 이날 온라인 기술설명회에서 "한국 문화와 언어 이해와 함께 B2B 환경에서 잘 사용될 수 있도록 문서 이행이나 보고서 작성 등에 최적화해 모델을 설계했다"고 말했다.
믿:음 2.0은 한국어 AI 역량 평가 지표 'Ko-Sovereign' 벤치마크에서 국내 모델을 비롯해 글로벌 최고 수준 오픈소스 모델을 능가하는 점수를 기록했다. 한국 전문 지식의 이해도를 측정하는 벤치마크 'KMMLU'와 한국어 언어모델 평가 지표인 'HAERAE'에서도 국내외 주요 오픈소스 모델보다 우수한 성능을 기록했다.
4일 오픈소스로 공개되는 믿:음은 115억 파라미터 규모의 '믿:음 2.0 베이스'와 23억 파라미터 규모의 '믿:음 2.0 미니' 등 2종이다. 믿:음 2.0 베이스는 범용 서비스에 적합한 모델로 한국 특화 지식과 문서 기반의 질의 응답에 유용하다. 믿:음 2.0 미니는 경량화한 온디바이스향 모델이다.
특히 KT는 리벨리온 NPU 기반 서버에서 믿:음 2.0 구동에 성공했다. 오승필 KT 기술혁신부문장(CTO)은 "국내 기업과 적극적으로 협력하는 데 동참하고 있다"고 말했다.
KT는 믿:음 2.0을 바탕으로 과학기술정보통신부가 추진하는 '독자 AI 파운데이션 모델' 프로젝트에 출사표를 낸다. 정예팀 간 경쟁을 거쳐 최신 글로벌 모델 대비 95% 이상 성능을 내는 독자 AI 모델을 만드는 프로젝트다. 신동호 랩장은 "한국적 가치와 문화를 담아내기 위해 구축한 모델(믿:음 2.0)이 한국 AI의 전반적인 수준을 높일 것으로 생각한다"고 말했다.
KT는 이날 2.0을 발표하며 믿:음 개발 중단설에 선을 그었다. 신 랩장은 "한 번도 개발을 멈춘 적이 없다"며 "1.0을 기반으로 KT의 한국적 AI 철학에 맞게 성능이 개선된 모델 개발을 해왔다"고 했다.
단 마이크로소프트와의 협력한 결과물 공개는 다소 미뤄졌다. 당초 KT는 GPT-4에 한국적 사고를 학습한 AI를 2분기 중 선보일 계획이었다. 신 랩장은 "출시 시기 조절이나 지연이라기보다는 내부적으로 성능을 올리는 과정으로 봐 달라"고 말했다.
업계는 정부가 소버린 AI를 강조하는 상황에서 자체 모델로 독자 AI 파운데이션 모델 프로젝트에 우선 참여하고, 마이크로소프트 협력 모델은 B2B 시장을 겨냥하는 투 트랙 전략을 세운 것으로 분석한다. KT는 향후 고객 수요와 목적에 따른 시스템통합(SI) 사업을 통해 AI 수익을 창출할 것으로 기대한다.
KT는 소버린 AI를 구성하는 요소로 ▲데이터 주권 ▲사용자 목적에 맞는 모델 선택권 ▲한국적 가치관과 문화 반영 ▲규제 준수 등 4가지를 제시했다.
신 랩장은 "기간통신 사업자로 원천 기술을 반드시 확보해야 한다는 믿음을 가지고 있다"며 "현재 확보하지 못한 기술은 마이크로소프트와 협력한 GPT 기반 모델에 한국적 문화와 밸류를 튜닝해 제공하려 한다"고 말했다.
한편 KT는 효과적인 AI 개발을 위해서는 데이터 규제 완화가 필요하다고 짚었다. 공공 데이터 등 국가가 통제할 수 있는 데이터를 여러 기업이 편리하게 쓸 수 있다면 더 단단한 소버린 AI 생태계가 꾸려질 거란 진단이다.
신 랩장은 "믿:음 2.0은 일반적인 생성 능력을 갖추면서도 한국 문화와 언어를 깊이 이해하도록 고도화한 AI 모델"이라며 "고성능 한국적 AI에 대한 새로운 대안을 제시하는 한편 글로벌 경쟁력을 갖출 중요한 발판이 될 것"이라고 강조했다.
고객님만을 위한 맞춤 차량