구글 ‘젬마 4’에 다중 토큰 예측 도입…로컬 AI 속도 최대 3배
||2026.05.07
||2026.05.07
[디지털투데이 AI리포터] 구글이 올봄 출시한 개방형 인공지능 모델 젬마4(Gemma 4)에 다중 토큰 예측(MTP) 기술을 도입해 기기 자체 구동 인공지능의 생성 속도를 최대 3배까지 높이고 데이터 보안과 개발자 편의성을 대폭 강화했다.
6일(현지시간) IT매체 아스테크니카에 따르면, 구글은 추측성 해독 방식을 활용해 다음에 올 단어를 미리 예측하는 실험적 형태의 초안 작성 모델을 출시했다.
이 기술은 모델이 단어를 하나씩 순차적으로 생성하는 기존 방식의 한계를 극복하기 위해 설계됐으며, 특히 메모리 대역폭이 제한적인 개별 하드웨어 환경에서 연산 장치의 대기 시간을 활용해 가벼운 초안 모델이 단어를 미리 추측하도록 돕는다. 젬마4는 거대 인공지능 제미나이와 동일한 기술적 뿌리를 두면서도 기기 자체 실행에 최적화됐으며, 이번에 사용 허가권도 아파치(Apache) 2.0으로 변경돼 접근성이 더욱 높아졌다.
다중 토큰 예측 기술의 핵심은 대형 목표 모델과 데이터를 공유하는 초경량 초안 모델을 활용하는 것이다. 초안 작성 모델은 주 모델의 활성 메모리를 공유해 문맥을 다시 계산하는 부담을 줄이고, 희소 해독 기술로 후보 단어군을 빠르게 좁힌다. 이렇게 생성된 초안 단어들은 목표 모델에 의해 동시에 검증되며, 예측이 맞을 경우 전체 문장이 한 번에 승인된다. 이 과정에서 대형 모델은 일반적인 단어 생성 작업도 병행하므로, 시스템은 한 번에 여러 개의 단어를 동시에 만들어낼 수 있게 됐다.
구글의 시험 결과, 해당 기술 도입으로 젬마4 모델의 속도가 큰 폭으로 향상됐다. 픽셀폰에서 실행되는 소형 모델들은 각각 2.8배와 3.1배 빨라졌으며, 애플 M4 칩 기반의 대형 모델 역시 2.5배의 속도 향상을 기록했다. 또한 주 모델이 모든 초안 단어를 최종 검증하는 구조 덕분에 생성 결과물의 품질 저하가 전혀 발생하지 않는다는 장점이 있다. 구글은 이 기술을 통해 사용자들이 스마트폰 등에서 배터리 소모를 줄이면서도 고성능 인공지능을 원활하게 사용할 수 있을 것으로 기대하고 있다.
젬마4와 초안 작성 모델은 현재 아파치 2.0 허가권 아래 누구나 이용할 수 있으며, 다양한 개발 환경을 통해 즉시 시험해 볼 수 있다. 개별 하드웨어의 메모리 속도 한계를 기술적으로 극복한 이번 업데이트는 기기 내장형 인공지능 시장의 경쟁을 가속화할 전망이다.
고객님만을 위한 맞춤 차량
