AI 모델 비용 75% 절감? 구글, 제미나이 API 최적화
||2025.05.09
||2025.05.09
[디지털투데이 AI리포터] 구글이 제미나이(Gemini) API에 '암시적 캐싱'(implicit caching) 기능을 도입해 인공지능(AI) 모델 사용 비용을 대폭 절감한다고 밝혔다고 8일(현지시간) IT매체 테크크런치가 전했다.
이 기능은 반복적인 콘텍스트를 자동으로 캐싱해 처리 비용을 줄여주는 기술로, 제미나이 2.5 프로 및 2.5 플래시 모델에서 지원된다. 구글은 이를 통해 AI 모델 사용 비용을 최대 75%까지 절감할 수 있다고 주장했다.
AI 산업에서 캐싱은 자주 사용되는 데이터나 미리 계산된 데이터를 저장해 컴퓨팅 요구와 비용을 줄이는 일반적인 방법이다. 기존에는 명시적 프롬프트 캐싱만 제공돼 개발자가 수동으로 프롬프트를 정의해야 했지만, 암시적 캐싱은 자동으로 적용되어 개발자 부담을 줄인다.
구글은 "제미나이 2.5 모델에 요청을 보낼 때 이전 요청과 공통 접두사를 공유하면 자동으로 캐시 적중이 발생해 비용 절감이 이루어진다"고 설명했다. 암시적 캐싱의 최소 프롬프트 토큰 수는 2.5 플래시 모델에서 1024개, 2.5 프로 모델에서 2048개로 설정됐다. 이는 대략 750단어에 해당하는 분량으로, 자동 절감 효과를 쉽게 유도할 수 있다.
구글은 반복적인 콘텍스트를 요청 초반에 배치하고, 변동 가능한 부분은 후반에 배치할 것을 권장했다. 그러나 이번 시스템이 자동 비용 절감을 보장한다는 점에 대한 외부 검증은 아직 이루어지지 않아, 초기 사용자들의 피드백이 향후 성능 평가에 중요한 기준이 될 전망이다.
고객님만을 위한 맞춤 차량