AI로 100개국 25년치 뉴스 번역·3100쪽 법안 요약…초대형 데이터 실험
||2026.03.16
||2026.03.16
[디지털투데이 홍진주 기자] 전 세계 뉴스와 사회 데이터를 실시간으로 수집·분석하는 'GDELT 프로젝트'(GDELT Project)가 인공지능(AI)을 활용해 방대한 뉴스와 정책 문서를 분석하는 다양한 실험을 공개하고 있다.
15일(현지시간) 온라인 매체 기가진에 따르면, GDELT 프로젝트는 방송, 신문, 웹 뉴스 등 전 세계 100개 이상 언어로 발행되는 콘텐츠를 지속적으로 수집해 데이터베이스로 구축하는 글로벌 아카이브다. 사람, 조직, 장소, 사건, 뉴스 소스 등 다양한 요소를 하나의 네트워크로 연결해 세계에서 발생하는 사건과 그 배경, 여론 흐름을 데이터 형태로 제공한다.
이 프로젝트는 데이터 과학자 카레프 리탈과 정치학자 필립 슐로트가 설립했으며, 1979년부터 현재까지의 뉴스와 소셜미디어(SNS) 데이터를 수집하고 있다. 수집된 데이터는 사회적 사건과 이에 대한 반응을 정량적으로 코드화해 세계 정치·경제·사회 동향을 분석하는 기반으로 활용된다.
GDELT는 특히 방대한 데이터 세트를 공개해 연구자와 저널리스트들이 분석에 활용할 수 있도록 하고 있다. 데이터는 크게 ▲전 세계 물리적 활동을 300개 이상의 카테고리로 분류한 이벤트 데이터▲사람·조직·장소·주제·감정 등을 기록한 관계 데이터 ▲뉴스 이미지의 시각적 스토리를 분석한 데이터 3가지 스트림으로 구성된다. 이 데이터는 약 15분 단위로 업데이트된다.
또한 GDELT는 자체 번역 시스템을 통해 65개 언어로 작성된 글로벌 뉴스를 실시간 번역해 처리하는 '트랜스링구얼 플랫폼'(translingual platform)을 운영하고 있다.
최근에는 AI를 활용한 분석 실험도 활발히 진행되고 있다. GDELT 프로젝트는 제미나이 기반 모델을 활용해 전 세계 뉴스에서 정부나 기업의 리더 교체 발표를 자동으로 추출하고 이를 지식 그래프로 정리하는 실험을 공개했다. 이 과정에서 AI는 단순히 인사 정보를 정리하는 것을 넘어 정치·경제적 배경까지 추론해 보고서를 생성하는 방식으로 활용됐다.
또 다른 실험에서는 약 3100페이지 분량의 미국 국방수권법을 AI에 입력해 전체 법안을 하나의 인포그래픽으로 변환하는 작업이 진행됐다. 이 과정에서 법안의 주제 분석, 관련 법안 정리, 예상 질의 생성 등 다양한 분석도 함께 수행됐다.
GDELT는 대규모 번역 실험도 공개했다. 2026년 2월 발표에 따르면 AI를 활용해 25년 동안 축적된 약 300만 편의 TV 뉴스 방송을 번역했다. 총 620억 글자, 약 60억 초 분량의 방송 데이터를 번역하는 데 사용된 비용은 약 7만4634달러였다. 이는 과거 방식으로는 수백만달러가 필요했을 것으로 추정되는 작업이다.
이 같은 프로젝트는 AI가 방대한 뉴스와 정책 문서를 종합적으로 분석할 수 있는 가능성을 보여주는 사례로 평가된다. 전문가들은 이러한 데이터 기반 분석이 앞으로 글로벌 정치·경제 동향을 이해하는 새로운 도구가 될 수 있다고 보고 있다.
고객님만을 위한 맞춤 차량
