허깅페이스 공인 리더보드, 중국 중심 재편…한국은 비드래프트 약진
||2026.04.28
||2026.04.28
전 세계 인공지능(AI) 모델의 추론 능력을 평가하는 벤치마크 ‘GPQA 다이아몬드(GPQA Diamond)’에서 허깅페이스가 공인하는 공식 리더보드 상위권이 중국과 한국 중심으로 재편된 것으로 나타났다.
27일 기준으로 리더보드 상위 21개 모델을 분석한 결과, 중국이 16개, 한국이 5개를 차지했다. 이 가운데 리더보드에 상위권에 이름을 올린 한국 모델 5개는 모두 서울시 산하 서울 AI 허브 기업인 비드래프트(VIDRAFT)가 개발한 ‘다윈(Darwin)’ 시리즈다. 단일 기업이 국가 대표 형태로 상위권에 진입한 셈이다.
GPQA 다이아몬드는 미국 뉴욕대학교(NYU) 연구진이 2023년 공개한 박사급 과학 추론 벤치마크로, 생물·물리·화학 분야의 고난도 문제를 통해 모델의 다단계 추론 능력을 평가한다. 주요 글로벌 AI 기업들이 성능 검증 지표로 활용하고 있다.
상위권에 이름을 올린 다윈 시리즈를 세부적으로 보면 ‘Darwin-28B-Opus’가 88.89점으로 3위, ‘Darwin-36B-Opus’가 88.4점으로 5위, ‘Darwin-27B-Opus’가 86.9점으로 11위, ‘Darwin-31B-Opus’가 85.9점으로 16위, ‘Darwin-9B-NEG’가 84.34점으로 21위를 기록했다.
특히 Darwin-28B-Opus는 28B(280억 파라미터) 규모임에도 불구하고 397B급 대형 모델보다 높은 점수를 기록했으며, Darwin-9B-NEG는 9B 규모로 상위권에 진입해 소형 모델의 경쟁력을 보여줬다.
상위권은 중국 기업이 주도했다. 1위는 문샷(Moonshot)의 Kimi-K2.6(90.5점), 2위는 딥시크의 V4-Pro(90.1점)가 차지했으며, 알리바바(Qwen) 6개, 지푸AI(GLM) 4개, 텐센트 1개 등 총 16개 모델이 포함됐다.
비드래프트는 다윈 시리즈를 ‘진화적 모델 병합’ 방식으로 개발했다. CMA-ES 기반 알고리즘을 활용해 다중 모델을 결합하고, A2AP(구조적 정렬 및 적응형 압력) 기술로 구조 차이를 정렬하는 방식이다.
해당 모델은 한국지능정보산업진흥원(NIPA)의 AI 컴퓨팅 자원 지원 사업을 통해 개발됐다. 아울러 비드래프트는 2026년 3월 허깅페이스 본사로부터 한국 스타트업 가운데 유일하게 공식 협력 제안을 받았다.
김민식 비드래프트 대표는 “한국 스타트업이 초대형 모델을 만들 자본을 갖추기는 현실적으로 어렵다”며 “다윈은 그 한계를 진화 알고리즘으로 우회한 시도이며, GPQA 톱21에 한국 모델 5개가 모두 진입한 것은 그 방식이 실제로 작동했음을 보여준다”고 말했다.
한편, 다윈 시리즈는 허깅페이스에서 오픈모델로 공개돼 있으며, 파생 모델을 포함한 전체 생태계는 약 380개 규모로 확장된 상태다.
김경아 기자
kimka@chosunbiz.com
고객님만을 위한 맞춤 차량
