AI 추론 전쟁…딥시크,11배 더 빠른 초고속 장문 훈련 기술 공개
||2025.02.21
||2025.02.21
[디지털투데이 홍진주 기자] 중국 인공지능(AI) 스타트업 딥시크가 AI 모델의 효율성을 높이는 최신 기술을 공개했다.
19일(현지시간) 홍콩 사우스차이나모닝포스트(SCMP)에 따르면 딥시크 창업자 량원펑(Liang Wenfeng)을 포함한 15명의 딥시크 개발자 등은 논문저장 사이트인 'arXiv'에 'NSA'(Native Sparse Attention)라고 명명한 매커니즘을 소개한 논문을 공개했다.
딥시크에 따르면 NSA 매커니즘은 현대 컴퓨팅 하드웨어에 최적화된 설계로 AI 모델 성능 저하를 유발하지 않으면서 추론 속도를 높이도록 설계됐다. 이는 특히 긴 문맥의 훈련 및 추론에 중점을 맞췄으며, 사전 훈련 비용을 절감할 수 있는 것이 핵심이다. 추론은 데이터 세트에서 패턴을 인식하도록 훈련된 AI 모델이 한 번도 본 적 없는 데이터에서 해당 패턴을 인식해 모방하는 상황을 뜻한다.
딥시크는 논문에서 "장문 모델링은 차세대 언어 모델에서 매우 중요하지만, 표준 어텐션(Attention) 매커니즘의 높은 연산 비용은 상당한 도전이 된다"라며 "희소(Sparse) 어텐션은 모델 역량을 유지하면서도 효율성을 개선할 수 있다"라고 밝혔다. NSA는 중요하지 않은 토큰은 압축하고, 필수적인 토큰만 선택해 연산 비용을 줄이고 속도를 높이는 동적 계층화 희소 전략을 적용한 것이 특징이다.
딥시크는 NSA가 일반 벤치마크(성능 실험) 테스트, 긴 문맥 작업 및 기시 기반 추론에서 기존의 풀(Full) 어텐션 매커니즘의 AI 모델과 동등하거나 능가하는 성능을 보였다고 주장했다. 연구팀은 64K 시퀀스 처리 속도를 비교한 결과 디코딩은 NSA가 11.6배 빨랐고, 역전파(backpropagation)도 6배 빨랐다고 강조했다.
한편 모든 토큰(AI 모델에서 처리되는 데이터 단위) 간 관계를 계산하는 풀 어텐션 메커니즘은 시퀀스 길이가 증가할수록 계산 복잡도가 기하급수적으로 늘어나는 문제가 있어 AI 업계에서는 일부 토큰만 선택해 계산하는 이른바 '희소 어텐션' 연구가 활발하게 진행 중이다.
실제로 최근 AI 업계에서는 딥시크 R1, 오픈AI 'o' 시리즈, 구글 제미나이 등의 주요 AI 모델과 같은 추론 모델이 대세로 자리잡고 있으며, 장문 처리 능력이 더욱 중요해지고 있다.
고객님만을 위한 맞춤 차량