파라미터 전쟁의 종말, Qwen의 독식·Nanbeige 뒤집기 [정원훈의 AI 트렌드]
||2026.03.06
||2026.03.06
인공지능(AI) 트렌드를 가장 빠르게 알 수 있는 허깅페이스를 분석하는 정원훈의 AI 트렌드입니다. 이번 주 허깅페이스는 한마디로 '중국 오픈소스의 대공세와 작은 거인의 반란'이 동시에 터진 한 주였습니다. 수십억 개의 파라미터를 자랑하는 모델들이 쏟아지는가 하면, 고작 30억짜리 모델이 300억짜리를 이기는 반전이 연출됐습니다. 그리고 그 모든 모델을 일반인의 노트북 위에 올려놓는 조용한 영웅도 등장했습니다.
이번 주의 키워드는 세 가지입니다. '허깅페이스를 장악한 Qwen3.5', '30억으로 300억을 이긴 Nanbeige', 그리고 '아무나 쓸 수 있게 만드는 Unsloth'입니다. 단순히 파라미터 숫자를 늘리던 시대가 저물고, 적은 연산으로 더 똑똑하게, 더 저렴하게, 더 가까이서 쓸 수 있는 AI가 기본값이 되는 시대가 본격적으로 열리고 있습니다. 이번 주도 퀴즈로 시작하겠습니다.
“이번 주 허깅페이스 모델 트렌딩 상위권을 사실상 독식한 알리바바의 멀티모달 AI 시리즈는? 0.8B 초소형부터 3970억 파라미터 플래그십까지 한 번에 공개해 커뮤니티를 놀라게 했습니다.”
“고작 30억 파라미터로 320억짜리 Qwen3-32B를 코딩·정렬 벤치마크에서 앞질러 AI 커뮤니티에 충격을 준 중국 소형 모델은? 딥서치 500회 이상 도구 호출이라는 전무후무한 기록도 세웠습니다.”
정답은 'Qwen3.5 시리즈', 'Nanbeige4.1-3B'입니다. 그럼 이번 주에는 어떤 혁신이 등장했는지 함께 살펴보겠습니다.
AI 모델 톱3
1위: Qwen/Qwen3.5 시리즈 | Image-Text-to-Text
"보는 것도, 읽는 것도, 코딩도 다 하는 알리바바의 '눈 뜬' 멀티모달 거인"
지난 주에 이어 이번 주도 큐원의 독주입니다. 알리바바 클라우드의 큐원 팀이 지난 2월 16일 플래그십 모델인 Qwen3.5-397B-A17B를 전격 공개한 데 이어, 2월 24일에는 중소형 라인업(122B-A10B, 35B-A3B, 27B)까지 한꺼번에 풀었었죠. 허깅페이스 다운로드 수만 48만 건을 넘기며 이번 주도 가장 뜨거운 관심을 받았습니다.
가장 눈에 띄는 특징은 통합된 시각·언어 능력입니다. 기존 모델들은 텍스트 모델을 먼저 만든 다음 시각 처리 장치를 나중에 붙이는 방식이었습니다. 마치 자동차를 만들고 나서 내비게이션을 따로 장착하는 것과 비슷하죠. Qwen3.5는 처음부터 텍스트, 이미지, 영상을 함께 학습해서 태어났습니다. 덕분에 기술 문서의 다이어그램을 읽으면서 설명까지 동시에 이해하는 작업에서 훨씬 자연스러운 성능을 보여줍니다.
구조적으로도 혁신적입니다. 이름만 봐도 엄청난 규모(3970억 파라미터)지만, 실제 토큰 처리 시 활성화되는 파라미터는 약 170억 개에 불과합니다. 비유하자면 500명 규모의 전문가 집단을 두고, 질문이 들어올 때마다 딱 맞는 17명의 전문가만 불러내 답하게 하는 겁니다. 선형 어텐션(Gated DeltaNet)과 희소 MoE를 결합한 하이브리드 아키텍처 덕분에 추론 속도는 이전 모델 대비 19배 빨라지고, 비용은 60% 절감됐습니다. 201개 언어와 방언을 지원하는 진정한 의미의 글로벌 AI이기도 합니다.
이번에 공개된 4개 모델은 크게 MoE(전문가 혼합) 모델 3종과 Dense(밀집) 모델 1종으로 나뉩니다. 비유하자면 397B는 플래그십으로 최고성능을 자랑하는 '종합병원', 122B는 에이전틱 테스크 중형 아키텍처로 '전문 클리닉', 35B-A3B는 극한의 효율을 자랑해 '놀라울 정도로 유능한 동네 의원', 27B는 로컬로 배포하고 커스마이징이 가능한 '왕진 가능한 주치의'라 할 수 있습니다. 특히 35B-A3B는 활성 파라미터가 30억에 불과한데도 이전 세대의 220억 활성 모델을 능가합니다. Dense 모델인 27B는 MoE의 라우팅 오버헤드가 없어 단일 GPU 배포가 간단하고 파인튜닝이 수월하므로, 로컬 환경에서 직접 모델을 수정·운영하려는 개발팀에 적합합니다.
어디에 활용할 수 있을까요? 이미지·동영상 분석이 필요한 비즈니스 인텔리전스, 다국어 에이전트 개발, 멀티미디어 콘텐츠 이해 등에 적합합니다. 특히 100만 토큰 컨텍스트 윈도우를 지원하는 호스팅 버전(Qwen3.5-Plus)은 대규모 코드베이스 분석이나 방대한 문서 세트 처리에 RAG 파이프라인 없이도 활용할 수 있습니다. 아파치(Apache) 2.0 라이선스로 상업적 활용도 자유롭습니다.
2위: Nanbeige/Nanbeige4.1-3B | Text Generation
"30억 파라미터로 300억짜리를 이기다, 작은 거인의 대반란"
지난 주 3위로 소개드렸던 Nanbeige4.1-3B가 이번에는 2위로 소개드립니다. 중국 채용 플랫폼 칸준(BOSS直聘)의 AI 팀이 만든 이 30억 파라미터짜리 모델이 Qwen3-32B(320억 파라미터)를 코딩·정렬 여러 벤치마크에서 앞질렀다는 소식도 들려와서 AI 커뮤니티에 적잖은 충격을 줬습니다. 모델 크기가 약 7.89GB에 불과해 일반 소비자용 GPU나 맥북에서도 충분히 돌릴 수 있습니다.
진짜 포인트는 '올라운드 능력'입니다. 기존 소형 모델들은 수학은 잘하지만 코딩은 못하거나, 코딩은 잘하지만 에이전트 작업은 못하는 식으로 편식이 심했습니다. Nanbeige4.1-3B는 추론·코딩·에이전트 작업을 모두 높은 수준으로 소화하는 최초의 오픈소스 소형 범용 모델입니다. 코딩 벤치마크 LiveCodeBench에서 Qwen3-32B를 앞섰고, 정렬 평가(Arena-Hard-v2)에서는 Qwen3-30B-A3B까지 넘어섰습니다. 수학 경시 대회인 AIME 2026에서도 경쟁력 있는 성적을 냈습니다.
가장 인상적인 기능은 딥서치(Deep Search) 역량입니다. 최대 600회에 달하는 도구 호출을 안정적으로 수행할 수 있어, 기존에는 대형 전문 에이전트만 가능했던 복잡한 멀티스텝 웹 리서치를 30억짜리 소형 모델로 처리할 수 있게 됐습니다. 비유하자면, 전국구 탐정 사무소의 업무를 동네 탐정이 더 빠르고 저렴하게 해내는 격입니다. SFT(지도학습 파인튜닝)와 RL(강화학습)을 결합한 후처리 최적화, 복잡도 인식 보상 설계 등 훈련 방법론에서 차별화를 추구한 덕분입니다.
어디에 활용할 수 있을까요? 예산이 제한된 스타트업이나 연구팀의 코딩 보조, 로컬 환경에서의 추론·에이전트 작업, 엣지 디바이스 배포, AI 교육용 실습 모델 등에 적합합니다. 아파치 2.0 라이선스로 상업적 활용도 가능합니다.
3위: unsloth/Qwen3.5-35B-A3B-GGUF | Unsloth AI
"'돌아가는 모델'이 '좋은 모델'이다, AI 민주화의 숨은 영웅"
3위는 새로운 모델이 아닙니다. 기존 모델을 '아무나 쓸 수 있게 만드는 기술'이 주인공입니다. Unsloth AI가 공개한 Qwen3.5-35B-A3B의 GGUF 양자화 버전입니다.
원본 Qwen3.5-35B 모델의 전체 용량은 70GB가 넘습니다. 일반 PC에서 돌리기는 사실상 불가능한 크기입니다. Unsloth는 'Dynamic GGUF 2.0'이라는 독자 양자화 기술로 이 모델을 20~24GB 수준까지 압축했습니다. 덕분에 24GB VRAM 소비자용 GPU나 맥북 프로에서도 Qwen3.5-35B급 성능을 그대로 누릴 수 있게 됐습니다.
양자화(Quantization)란 무엇일까요? 원본 모델의 숫자 정밀도(예: 16비트 소수점)를 줄여(예: 4비트) 용량과 연산량을 확 낮추는 기법입니다. 압축을 하면 약간의 성능 손실이 생기는 게 보통인데, Unsloth는 중요한 레이어는 고정밀도를 유지하고 덜 중요한 레이어만 압축하는 '동적(Dynamic)' 방식으로 이 손실을 최소화했습니다. 무려 150회 이상의 KL 발산 벤치마크 실험(9TB 분량의 GGUF 처리)으로 검증한 결과물입니다. 이번 업데이트에서는 도구 호출(tool-calling) 버그도 함께 수정됐습니다.
어디에 활용할 수 있을까요? 클라우드 API 없이 로컬 환경에서 최신 AI를 운영하려는 개발자, 비용을 최소화하면서 고성능 모델이 필요한 스타트업, 개인정보 보호가 중요한 법률·의료 분야, 그리고 Ollama나 llama.cpp로 나만의 AI를 운영하고 싶은 모든 이에게 적합합니다.
AI 응용프로그램(Spaces) 톱3
허깅페이스 스페이스는 AI 모델을 웹 브라우저에서 바로 체험할 수 있는 플레이그라운드입니다. 코드 한 줄 없이 최신 AI 기술을 만져볼 수 있죠. 이번 주 가장 뜨거운 스페이스 3곳을 소개합니다.
1위: FireRed Image Edit 1.0 Fast | prithivMLmods
"사진에 '말'만 걸면 포토샵이 필요 없다"
사진 한 장을 올리고 '배경을 파리 에펠탑 앞으로 바꿔줘', '이 제목 글씨를 굵게 해줘'라고 말만 하면? 그대로 됩니다. prithivMLmods가 만든 이 스페이스는 FireRed-Image-Edit 모델과 Qwen 이미지 편집 파이프라인을 결합해 텍스트 지시어 하나로 전문가 수준의 이미지 편집을 가능하게 합니다.
단순 배경 교체는 기본이고, 텍스트 스타일 유지·인물 동일성 보존·10개 이상 요소 합성·오래된 사진 복원까지 가능합니다. 1억 6천만 개의 고품질 이미지-편집 쌍으로 학습했으며, 오픈소스 기준 ImageEdit·GEdit·REDEdit 벤치마크에서 모두 최고 성능을 기록했습니다. MCP(도구 연결 프로토콜)도 지원해 다른 에이전트 워크플로와 연결하기도 쉽습니다.
어디에 활용할 수 있을까요? 이커머스 상품 이미지 배경 교체, 부동산 인테리어 가상 스타일링, SNS 프로필 사진 보정, 오래된 가족사진 복원, 마케팅 소재 빠른 시안 제작 등에 바로 활용 가능합니다.
2위: faster-qwen3-tts | HuggingFaceM4
"3초짜리 목소리 샘플로 나만의 AI 성우를 만들다"
글을 붙여 넣으면 사람처럼 말해 주는 TTS(텍스트-투-스피치) 스페이스입니다. 그런데 이 스페이스가 특별한 이유는 '내 목소리를 3초만 녹음해 올리면' 그 목소리로 말해 준다는 데 있습니다. 이미 녹음된 샘플이 없어도 '따뜻하고 자신감 넘치는 40대 남성 성우 목소리'처럼 글로 묘사하면 그대로 새 목소리를 만들어 줍니다.
Qwen3-TTS 기반에 쿠다 그래프(CUDA Graph) 최적화를 적용해 실시간에 가까운 스트리밍 생성 속도를 구현했습니다. 한국어·중국어·영어·일본어 등 10개 언어를 지원하며, 억양·속도·감정까지 문맥에 맞게 자동으로 조절합니다. 기존 TTS가 '낭독 로봇'이었다면, 이 모델은 '감정을 읽는 성우'에 가깝습니다.
어디에 활용할 수 있을까요? 유튜브·팟캐스트 내레이션 자동 제작, 오디오북 제작, 시각장애인용 접근성 서비스, 고객 응대 봇 음성 커스터마이징, 언어 학습 발음 예시 생성 등에 활용할 수 있습니다.
3위: LFM2.5 1.2B Thinking WebGPU | LiquidAI
"서버도 설치도 없이, 브라우저 탭 하나로 AI 추론을"
MIT에서 스핀오프한 LiquidAI가 개발한 1.2B 추론 모델을 크롬 브라우저에서 직접 실행하는 스페이스입니다. 서버도, 설치도, 회원가입도 필요 없습니다. 브라우저만 있으면 됩니다.
비결은 웹GPU 기술입니다. 사용자의 그래픽카드를 브라우저에서 직접 활용해 AI 추론을 로컬에서 처리하는 방식입니다. 덕분에 데이터가 외부 서버에 단 한 바이트도 나가지 않습니다. AMD 중앙처리장치(CPU)에서 초당 239토큰, 모바일 신경망처리장치(NPU)에서 초당 82토큰의 속도를 내며, 1GB 미만의 메모리로 구동됩니다. '씽킹 모드'를 지원해 AI가 어떻게 단계별로 답을 도출했는지 그 과정을 들여다볼 수도 있습니다. 마치 수학 선생님이 풀이 과정을 칠판에 써 내려가는 것처럼요.
어디에 활용할 수 있을까요? 보안이 중요한 사내 문서 요약, 수학·논리 추론 AI 튜터, 인터넷이 없는 환경(비행기·오지)에서의 AI 활용, 개인정보 보호가 필요한 법률·의료 초안 작업 등에 적합합니다.
스페셜 스페이스: Leaderboard – FINAL Bench 'Metacognitive' | FINAL-Bench (비드래프트)
"AI야, 네가 틀렸다는 걸 너는 알고 있니? — 세계 최초 AI 메타인지 벤치마크"
이번 주 스페이스 순위에서 5위에 오른 이 스페이스, 사실 숫자보다 의미가 훨씬 큰 작품이라 소개합니다. 더욱 반가운 것은 이것이 서울AI허브 입주 기업인 한국 스타트업 비드래프트(VIDRAFT)의 작품이라는 점입니다.
FINAL Bench(Frontier Intelligence Nexus for AGI-Level Verification)는 세계 최초로 AI의 '메타인지' 능력을 정량 측정하는 벤치마크입니다. 지금까지 MMLU·GPQA·HumanEval 같은 기존 벤치마크는 모두 한 가지만 물었습니다. '정답을 맞혔나?' 그런데 FINAL Bench는 전혀 다른 질문을 던집니다. '틀렸을 때 어떻게 했나?'
의사가 오진을 스스로 발견하고 처방을 바꾸는 능력, 과학자가 예상치 못한 실험 결과 앞에서 가설을 수정하는 능력, 인지심리학에서는 이를 메타인지(Metacognition)라 부릅니다. 인간 전문가와 초보자를 나누는 핵심 역량이자, AGI 달성의 필수 조건으로 꼽히는 능력입니다.
연구팀이 GPT-5.2, Claude Opus 4.6, Gemini 3 Pro 등 세계 최고 AI 9종을 평가한 결과는 충격적이었습니다. 모든 모델이 예외 없이 '말하는 능력(MA: 불확실하다고 인정하기)'은 높은데 '고치는 능력(ER: 실제로 오류 수정하기)'은 절반도 안 됐습니다. 기준 조건에서 MA 평균 0.694 대 ER 평균 0.302로 무려 두 배 이상의 격차입니다. 쉽게 말하면, 지금의 AI는 '제가 틀릴 수도 있어요'라고 말은 하면서 정작 틀린 답을 고치지는 않습니다. 마치 '이 진단이 불확실하다'고 말하면서도 처방전은 그대로 쓰는 의사처럼요.
이 스페이스는 해당 연구의 리더보드를 인터랙티브하게 시각화합니다. 모델별 점수를 정렬·비교하고, 5개 평가 축(과정 품질·메타인지 정확도·오류 회복·통합 깊이·최종 정답률)의 세부 수치를 한눈에 볼 수 있습니다. 허깅페이스 데이터셋 전체 인기순위 글로벌 5위, 허깅페이스가 매주 전 세계 수천 개 스페이스 중 단 8개만 선정하는 '금주의 스페이스(Spaces of the Week)'에도 이름을 올렸습니다.
어디에 활용할 수 있을까요? AI 모델 도입을 검토하는 기업 담당자가 모델의 '자기교정 능력'을 사전에 검증하는 도구로, AI 안전성 연구자의 리스크 평가 지표로, AGI 연구자들의 새로운 평가 기준으로 활용할 수 있습니다. 데이터셋·채점 코드·심판 프롬프트 전체가 아파치 2.0으로 공개돼 누구나 자신의 모델을 직접 평가해볼 수 있습니다.
시사점 & 인사이트
이번 주 트렌드를 한마디로 요약하면 '중국 오픈소스의 공세, 작은 거인의 반란, AI 민주화의 완성'입니다.
첫째, 허깅페이스 트렌딩을 중국 빅테크가 독식하고 있습니다. 이번 주 모델 트렌딩 상위권을 Qwen3.5가 사실상 도배했습니다. 미국이 반도체 수출 규제로 중국 AI 개발을 압박하는 사이, 알리바바는 오픈소스 전략으로 글로벌 개발자 생태계를 공략하고 있습니다. 아파치 2.0 라이선스는 상업적 이용에 제약이 없어, 국내 스타트업과 기업이 비용 부담 없이 도입할 수 있다는 점을 주목해야 합니다.
둘째, '파라미터 수 = 성능'이라는 등식이 깨지고 있습니다. Nanbeige4.1-3B가 보여준 것처럼, 학습 데이터의 품질과 강화학습 기법의 정교함이 모델의 크기보다 더 중요할 수 있다는 것이 실증됐습니다. Qwen3.5-9B가 13배 큰 OpenAI 120B를 이긴 것도 같은 맥락입니다. AI 모델 선택 기준이 '얼마나 큰가'에서 '얼마나 효율적인가'로 빠르게 이동하고 있습니다.
셋째, '에이전트'가 새로운 표준이 되고 있습니다. Nanbeige의 600턴 도구 호출, Qwen3.5의 내장 도구 지원, FireRed 스페이스의 MCP 연동까지 이번 주 공개된 모든 주요 기술이 '대화형 챗봇'을 넘어 '자율적으로 업무를 수행하는 에이전트'로의 전환을 강조하고 있습니다. AI가 '말하는 도구'에서 '일하는 동료'로 변모하는 흐름이 뚜렷합니다.
넷째, 좋은 모델만큼 '쓸 수 있는 모델'이 중요합니다. Unsloth의 Dynamic GGUF 2.0이 상위권에 오른 것은 시사하는 바가 큽니다. 아무리 뛰어난 AI도 일반 개발자의 노트북에서 돌아가지 않으면 그림의 떡입니다. 경량화·압축·최적화 기술 자체가 하나의 독립적인 경쟁력이 되는 시대가 열리고 있습니다.
토막 상식: GGUF·양자화… "70GB 모델을 내 노트북에 넣는 기술"
이번 주 3위에 오른 Unsloth의 GGUF를 이해하려면 먼저 '양자화(Quantization)'라는 개념을 알아야 합니다. AI 모델을 구성하는 수십억 개의 가중치(숫자)는 원래 32비트 혹은 16비트 부동소수점으로 저장됩니다. 이 숫자들의 정밀도를 4비트 혹은 8비트 정수로 줄이는 것이 양자화의 핵심입니다. 쉽게 비유하자면 이렇습니다. 원본 AI 모델이 '초고화질(8K) 영상'이라면, 양자화한 모델은 '풀HD 영상'입니다. 용량은 훨씬 작아지지만 스마트폰 화면으로 보기엔 여전히 선명합니다. 4K나 8K 모니터가 없는 일반인에게는 풀HD로 충분하다는 뜻이기도 합니다. 실제로 잘 만들어진 4비트 양자화 모델은 원본 대비 성능 손실이 1~2% 수준에 불과합니다.
그렇다면 GGUF는 무엇일까요? llama.cpp라는 오픈소스 추론 엔진에서 쓰는 파일 포맷입니다. Ollama, Open WebUI, LM Studio 같은 인기 로컬 AI 툴이 모두 이 포맷을 지원합니다. 즉 GGUF 파일을 받아서 Ollama에 올리면, 코딩 지식이 없어도 내 컴퓨터에서 최신 AI를 무료로 쓸 수 있게 됩니다. Unsloth가 만든 'Dynamic GGUF 2.0'은 여기서 한 발 더 나갑니다. 모든 레이어를 똑같이 압축하는 기존 방식과 달리, 모델에서 중요한 레이어(성능에 민감한 부분)는 높은 정밀도를 유지하고, 덜 중요한 레이어만 더 낮은 비트로 압축합니다. 9TB 분량의 벤치마크로 어떤 레이어가 얼마나 중요한지를 측정한 결과물입니다. 덕분에 동일한 파일 크기에서 기존 양자화 방식보다 더 높은 품질을 냅니다.
마무리
이번 주 허깅페이스는 '작아지는 AI, 커지는 가능성'을 동시에 보여줬습니다. Qwen3.5 시리즈가 트렌딩을 독식하는 동안, Nanbeige는 3B로 32B를 이기는 반란을 일으켰고, Unsloth는 그 모든 모델을 일반인의 노트북 위에 조용히 내려놓았습니다. 중요한 건 이 기술들이 이제 연구실 논문 속 이야기가 아니라는 점입니다. 지금 이 순간, 허깅페이스에서 클릭 한 번으로 다운로드할 수 있습니다.
※ 외부필자의 원고는 IT조선의 편집방향과 일치하지 않을 수 있습니다.
정원훈 텐에이아이 대표는 한국인공지능진흥협회 이사와 한국디지털자산포럼(KODIA Forum) 정책기획실장을 맡고 있다. 법률AI 서울로봇과 블록ESG 프로젝트를 총괄하며 한국지식재산교육연구학회 이사 겸 기술가치평가위원장과 한국벤처창업학회 이사로도 활동한다. 아시아경제신문사 뉴미디어본부, 매일경제인터넷 금융센터 팀장을 거쳐, SNS 개발과 대안신용평가 시스템, AI 기반 법률 서비스 등 혁신 프로젝트를 주도해 온 IT·금융 전문가다.
고객님만을 위한 맞춤 차량
