모델 개발 비용 낮춰라...글로벌 AI판 ‘증류 기술’ 열기 고조
||2025.03.05
||2025.03.05
[디지털투데이 황치규 기자] 중국 AI 기업 딥시크가 비용 효율적인 AI 모델로 전세계적으로 큰 관심을 불러일으킨 후 보다 저렴한 AI 모델을 개발하려는 유력 테크 기업들 행보가 가속화하고 있다.
이 과정에서 '증류'(distillation)로 불리는 기법이 새로운 요충지로 부상했다. 딥시크도 적극 활용한 것으로 알려지면서 증류에 대한 관심은 더욱 커지는 모양새다.
파이낸셜타임스(FT) 최근 보도에 따르면 그동안 증류는 AI 업계에서 광범위하게 사용돼왔고 최근 비용 효율적으로 AI를 개발하려는 스타트업들 사이에서 보다 중량감 있는 존재로 떠올랐다.
증류는 교사 모델(Teacher model)과 학생 모델(student model)을 두고 AI 모델을 개발하는 것으로 요약된다. 교사 모델은 통상 오픈AI 등 시중에 나와 있는 LLM들을 많이 활용된다. 교사 모델로 다음에 나올 가능성이 높은 단어를 생성하고 이걸로 학생 모델을 학습시키는 방식이다. 이를 통해 교사 모델이 가진 지식과 예측 역량을 학생 모델에 빠르게 전달할 수 있다.
올리비에르 고드망 오픈AI 플랫폼 제품 총괄은 "증류는 매우 마법 같은 기법이다. 영리한 대형 프론티어 모델을 가져와 특정 작업에 뛰어나고 빠르고 저렴하게 실행할 수 있는 소형 모델을 학습시키는데 사용하는 것이다"고 말했다.
이를 통해 오픈AI GPT-4, 구글 제미나이, 메타 라마 같은 LLM들 대비 아주 적은 비용으로 이들 모델 역량을 구현할 수 있다는 설명이다. 오픈AI 등은 AI 모델 학습에 들어간 비용을 공개하지 않고 있지만 수억 달러에 달할 가능성이 높다고 FT는 전했다.
증류는 주머니 사정이 여의치 않은 스타트업들을 넘어 빅테크 기업들 사이에서도 폭넓게 활용되고 있다.
마이크로소프트는 소형언어모델(SLM) 제품군인 파이(Phi) 시리즈에 증류를 적용하기 위해 오픈AI LLM인 GPT-4을 사용했다. 오픈AI에 140억달러 가까운 자금을 오픈AI에 투자하면서 맺은 상업적 협력 일환이다.
증류는 저렴한 비용으로 고성능 모델에 활용할 수 있지만 그에 따른 한계도 있다. 마이크로소프트 리서치의 아흐메드 아와달라는 "증류에는 트레이드 오프(Trade off)가 있다. 모델을 보다 작게 만들면 역량은 불가피하게 축소된다"면서 "증류한 모델은 예를 들면 이메일 요약에 아주 뛰어나게 디자인될 수 있지만 다른 작업들에는 능하지 않다"고 말했다.
한계가 있음에도 증류을 활용한 AI 모델은 엔터프라이즈 시장에선 여전히 매력적이다. FT에 따르면 IBM리서치에서 AI 모델을 담당하는 데이비드 콕스 부사장은 "기업들 대부분은 제품을 돌리는데 거대한 모델을 필요로 하지 않는다. 증류된 모델들은 고객 서비스 챗봇 같은 용도나 스마트폰 같은 소형 기기에서 돌리는데 충분하다"고 말했다.
증류는 AI 회사들 비즈니스 모델에도 영향을 미치는 변수로 등장했다. 오픈AI 같은 개발사들은 컴퓨팅 파워가 덜 필요하다 보니 증류 모델 사용에 따른 비용을 적게 부과하는 경우가 많다고 FT는 전했다.
증류가 확산되면서 AI 모델 개발 관련해 퍼스트 무버(First mover) 효과가 약화될 수 있다는 지적도 있다. 모델 개발사들이 AI 모델 고도화를 위해 거액을 투입하더라도 딥시크처럼 증류를 활용해 빠르게 추격하는 경쟁자들 도전에 직면할 수 있다는 얘기다.
그러다 보니 증류를 둘러싸고 업체 간 갈등의 조짐도 구체화되고 있다.
오픈AI는 딥시크에 대해 자사와 경쟁하는 AI 모델을 학습시키기 위해 자사 모델들을 증류했다고 주장하고 나섰다. 이는 서비스 조건에 위배된다는 것이 오픈AI 입장이다. 딥시크는 이같은 주장에 아직까지 언급하지 않고 있다고 FT는 전했다.