메모리 6배 줄였다…구글, AI 압축 알고리즘 ‘터보퀀트’ 공개
||2026.03.26
||2026.03.26
[디지털투데이 홍경민 인턴기자] 구글이 대규모 언어모델(LLM)의 메모리 사용량을 줄이면서 속도를 높일 수 있는 새로운 압축 알고리즘 터보퀀트(TurboQuant)를 공개했다.
25일(현지시간) IT매체 아스테크니카에 따르면, 터보퀀트는 LLM에서 중요한 정보를 저장하는 키-값 캐시(Key-Value Cache)의 크기를 줄이기 위해 설계된 기술로, 메모리 사용량을 줄이면서도 성능과 정확도를 유지하는 것을 목표로 한다. 구글은 초기 테스트에서 일부 실험 기준으로 메모리 사용량을 최대 6배 줄이고 성능을 최대 8배 향상시키는 결과를 보였다고 설명했다.
이 기술은 AI 모델이 사용하는 고차원 벡터 데이터를 더 효율적으로 처리하기 위한 방식으로 작동한다. 기존에는 벡터를 좌표 기반으로 저장했지만, 구글은 폴라퀀트(PolarQuant)라는 시스템을 통해 이를 극좌표 방식으로 변환해 데이터 표현을 단순화하고 압축 효율을 높였다.
또한 압축 과정에서 발생할 수 있는 오차를 줄이기 위해 QJL(Quantized Johnson-Lindenstrauss) 기법을 적용해 보정하는 단계도 포함됐다. 이 과정은 벡터 정보를 최소 단위로 줄이면서도 데이터 간 관계를 유지해 AI 모델의 중요한 연산인 어텐션 점수 계산 정확도를 높이는 데 도움을 준다.
구글은 이 알고리즘을 젬마(Gemma)와 미스트랄(Mistral) 등 공개 모델을 대상으로 테스트했으며, 별도의 추가 학습 없이도 적용 가능하다고 밝혔다. 업계에서는 이 기술이 적용될 경우 AI 모델 운영 비용을 줄이고 모바일 환경 등 제한된 하드웨어에서도 더 효율적인 AI 활용이 가능해질 것으로 보고 있다.
고객님만을 위한 맞춤 차량
