허깅페이스, 다국어·장문 대응 AI ‘SmolLM3’ 발표…소형 모델의 혁신
||2025.07.10
||2025.07.10
[디지털투데이 AI리포터] 글로벌 인공지능(AI) 모델 공유 플랫폼 허깅페이스(Hugging Face)가 언어 모델 'Smol'의 최신 버전 'SmolLM3'를 발표했다.
9일(현지시간) 온라인 매체 기가진에 따르면 SmolLM3는 6개 언어를 지원하며 최대 12만8000 토큰의 장문을 처리할 수 있는 다국어·장문 대응 모델로, 소형언어모델(SLM)임에도 대규모언어모델(LLM)과 유사한 성능을 구현했다. 12만8000 토큰은 300~400페이지 분량의 책 1권에 해당하는 수준으로, SLM으로서는 놀라운 수치다.
SmolLM3는 3B 파라미터(30억 개)로 구성돼 GPT-3(1750억)나 GPT-4(수천억) 대비 작지만, 다국어 지원과 긴 텍스트 처리 능력을 갖췄다. 영어, 프랑스어, 스페인어, 독일어, 이탈리아어, 포르투갈어를 지원한다.
허깅페이스가 공개한 성능 그래프에 따르면, SmolLM3는 지식, 추론, 수학, 코딩 능력을 평가하는 12개 주요 벤치마크에서 승률을 기록했다. SmolLM3는 동일한 3B 모델인 알리바바 큐원2.5 3B(Qwen2.5 3B), 메타 라마3.2 3B(Llama 3.2 3B)를 일관되게 능가했으며, 4B 모델인 큐원3 4B(Qwen3 4B) 및 구글 젬마3 4B 베이스(Gemma3 4B Base)와 비슷한 성능을 보였다고 한다.
SmolLM3의 강점은 3단계 학습 방식에 있다. 이는 학습 데이터를 한 번에 처리하는 대신, 단계별로 학습 내용을 조정하는 방식으로, 1단계에서 일반 지식과 언어 기초를 익히고, 2단계에서 프로그래밍과 논리성을 강화하며, 3단계에서 수학과 코드 응용력을 높이는 것이다. 일반적인 3B 모델이 500억~1000억 토큰으로 훈련되는 반면, SmolLM3는 11조2000억 토큰을 학습했다. 이는 GPT-3(3000억 토큰)을 크게 초월하는 수준이다.
한편, SmolLM3에는 '/no_think'(즉각 응답)와 '/think'(추론 과정 설명) 두 가지 모드를 지원해 다양한 활용이 가능하다.
고객님만을 위한 맞춤 차량
