구글 클라우드 7시간 먹통… "업데이트 오류가 원인"
||2025.06.18
||2025.06.18
구글이 최근 발생한 대규모 클라우드 서비스 장애의 원인을 두고 업데이트 오류 때문이라고 밝히며 공식 사과했다.
6월 16일(현지시각) CNBC 등 외신에 따르면 구글은 이번 사태의 조사 보고서를 공개했다. 구글은 "이번 장애가 고객의 비즈니스와 사용자, 시스템에 대한 신뢰에 미친 영향에 대해 사과드린다"며 "앞으로 이러한 장애를 방지하기 위한 개선에 전념하겠다"고 약속했다.
이번 대규모 장애는 6월 12일 오전 10시 49분(현지시각)쯤 시작됐다. 구글 클라우드의 55개 서비스가 동시에 영향을 받으면서 전 세계 사용자들이 접속 장애를 겪었다. 특히 챗GPT, 스포티파이, 디스코드, 트위치 등 구글 클라우드를 이용하는 주요 온라인 서비스들도 연쇄적으로 오류가 발생했다.
구글은 조사 결과 장애의 직접적인 원인은 올해 5월 29일 도입된 '쿼터 정책 점검' 기능의 결함이었다고 밝혔다. 해당 기능은 각 API 요청이 정책과 사용량 제한을 충족하는지 확인하는 역할을 한다. 업데이트 당시에는 오류가 감지되지 않았지만, 6월 12일 서비스 컨트롤의 지역별 데이터베이스에 정책 변경이 적용되면서 처음으로 문제 코드가 실행되며 전 세계 클라우드 데이터센터로 오류가 전파됐다.
구글 측 엔지니어들은 장애 발생 10분 만에 문제를 파악했지만 시스템 특성상 복구에는 상당한 시간이 소요됐다. 대부분의 서비스는 약 2시간 만에 복구됐지만, 일부 대형 지역에서는 과부하가 발생해 최대 7시간 30분이 걸렸다. 인공지능 플랫폼인 버텍스 AI의 온라인 예측 서비스는 오후 6시 18분에야 마지막으로 복구가 완료됐다.
장애 발생 직후 온라인 장애 모니터링 사이트 '다운디텍터'에는 구글 클라우드 관련 신고가 1만 건 이상 접수되는 등 전 세계적으로 큰 혼란이 발생했다. 미국, 유럽, 아시아 등 전 지역에서 13개 클라우드 서비스에 문제가 발생한 것으로 확인됐다.
구글은 이번 사태를 계기로 대대적인 시스템 개선에 나선다고 발표했다. 주요 개선 방안으로는 문제 발생 시 충돌을 방지할 수 있도록 시스템 아키텍처를 전면 변경한다. 또한 모든 시스템에 대한 전면 감사를 실시하는 것이 포함됐다. 구글은 향후 업데이트 시에는 보다 철저한 테스트 과정을 거쳐 이런 대규모 장애가 재발하지 않도록 하겠다고 약속했다.
홍주연 기자
jyhong@chosunbiz.com
고객님만을 위한 맞춤 차량