모레, 고성능 한국어 LLM ‘모티프’ 오픈소스 공개
||2024.12.03
||2024.12.03
인공지능(AI) 인프라 솔루션 기업 모레는 자체 개발한 한국어 LLM(대규모 언어모델) 파운데이션 모델인 ‘Llama-3-Motif-102B’(이하 모티프)를 허깅페이스에 오픈소스로 공개한다고 3일 밝혔다.
모티프는 기존 출시된 LLM의 한국어 성능을 능가한다. 모레는 모티프를 오픈소스로 배포해 한국 AI 생태계 성장에 기여한다는 계획이다. 이를 위해 AI 모델 사업 본격 추진을 위한 자회사도 설립할 예정이다.
1020억 개의 매개변수(파라미터)를 가진 모티프는 한국판 AI 성능 평가 체계인 ‘KMMLU’ 벤치마크에서 64.74점으로 오픈AI의 GPT-4보다 높은 점수를 받았다. 또한 메타나 구글, 네이버의 LLM 보다 뛰어난 한국어 처리 성능을 입증했다.
모티프의 성능은 토큰 기준으로 1870억 개에 달하는 방대한 양의 한국어 학습량과 독자적인 학습 기법으로 설명할 수 있다. 웹상에서 수집 가능한 글뿐만 아니라 공개된 전문 분야 문서(국내 특허 및 연구 보고서 등)를 학습 데이터로 활용했다. 모티프는 사전 훈련된 언어모델과 지시사항을 따르는 데 특화된 인스트럭트 모델 2가지 버전의 오픈소스가 공개된다.
모레는 이번 한국어 LLM 개발에 앞서 올해 초 영어 LLM ‘MoMo-70B’를 선보인 바 있다. 이 모델은 허깅페이스에서 운영하는 ‘오픈 LLM 리더보드’ 평가에서 77.29점이라는 높은 점수를 기록했다. 모델 개발 착수에서 1위 달성까지 단 3개월 만에 거둔 성과다.
모레가 단기간에 고성능의 영문과 국문 LLM을 만들 수 있었던 것은 AI 모델 개발을 위한 최적의 인프라인 AI 플랫폼 기술을 보유하고 있기 때문이다. LLM을 빠르게 개발하기 위해서는 효율적인 모델 학습 방법을 확보하는 것이 중요한데 모레의 ‘모아이(MoAI)’ 플랫폼은 고도의 병렬화 처리 기법을 통해 대규모 AI 모델을 효율적으로 개발하고 학습할 수 있도록 돕는다.
모레 조강원 대표는 “자체 개발한 고성능 LLM을 오픈소스로 공개하는 것은 국내 AI 생태계가 보다 발전적인 방향으로 성장하고 소버린 AI에 기여하기 위함”이라며 “모레는 향후 우수한 AI 인프라 소프트웨어 기술력을 바탕으로 IP 산업, 의료, 법률, 금융 등 전문 영역에 특화된 LLM을 개발하는 등 AI 모델 허브를 목표로 사업을 추진하겠다”고 밝혔다.
조상록 기자 jsrok@chosunbiz.com
고객님만을 위한 맞춤 차량