"진실 혹은 거짓" 최신 AI 5종에 팩트체크 맡겼더니…67%서 결론 엇갈려

이번 결과는 최신 AI라도 같은 주장에 대해 일관된 팩트체크 결론을 내리지 못할 수 있다는 점을 보여준다. [사진: 셔터스톡]

[디지털투데이 홍진주 기자] AI가 팩트체크를 대신할 수 있을까. 최신 인공지능(AI) 모델 5종에 동일한 주장 1000건을 검증하도록 맡긴 결과, 3건 중 2건 이상에서 판단이 엇갈린 것으로 나타났다. AI를 사실 검증 도구로 활용하려는 움직임이 확산하는 가운데, 모델마다 결론이 크게 달라질 수 있다는 점을 보여주는 결과다.

1일(현지시간) 온라인 매체 기가진에 따르면, 팩트체크 서비스 렌즈(Lenz)는 최근 사용자들이 제출한 주장 1000건을 대상으로 주요 대형언어모델(LLM)의 판정 일치도를 분석했다.

실험에는 GPT-5.4, 클로드 오퍼스 4.7, 제미나이3 프로, 제미나이3 프로+서치, 소나 프로 등 5개 모델이 참여했다. 각 모델은 주어진 주장에 대해 '진실', '대체로 진실', '오해의 소지가 있음', '거짓' 가운데 하나를 선택해 평가했다.

결과는 예상보다 큰 차이를 보였다. 전체 1000건 가운데 5개 모델이 모두 같은 결론을 내린 사례는 328건에 그쳤다. 반면 672건은 최소 한 개 이상의 모델이 다른 판단을 내리며 의견이 갈렸다. 특히 132건은 어느 평가도 과반을 확보하지 못할 정도로 판정이 여러 방향으로 분산됐다.

이는 단순히 일부 모델이 다른 답변을 내놓는 수준을 넘어 같은 주장에 대해서도 공통된 결론이 형성되지 않는 경우가 적지 않았음을 의미한다.

실제 사례에서도 차이가 확인됐다. 렌즈가 공개한 사례 중 하나는 볼로디미르 젤렌스키 우크라이나 대통령의 2026년 노벨평화상 후보 지명 여부였다. GPT-5.4와 제미나이3 프로는 해당 주장을 '거짓'으로 판단했지만, 제미나이3 프로+서치와 소나 프로는 '진실'로 평가했다. 이후 확인 결과 젤렌스키 대통령은 실제로 2026년 노벨평화상 후보로 지명된 것으로 나타났다.

유명 인사의 발언 여부, 심리학 관련 일반화된 주장, 세계은행 통계 등 비교적 검증 가능한 사안에서도 모델 간 의견 차이가 발견됐다.

모델별 판단 성향도 뚜렷하게 갈렸다. GPT-5.4와 클로드 오퍼스 4.7, 소나 프로는 '대체로 진실'이나 '오해의 소지가 있음' 같은 중간 평가를 상대적으로 자주 선택했다. 반면 제미나이3 프로 계열은 '진실' 또는 '거짓'처럼 보다 단정적인 결론을 내리는 경향이 강했다.

같은 사실 검증 작업이라도 모델마다 보수적으로 접근하는지, 혹은 이분법적으로 판단하는지에 따라 결과가 달라질 수 있다는 의미다.

렌즈는 이번 연구의 목적이 어떤 모델이 가장 뛰어난지 가리는 데 있지 않다고 설명했다. 회사는 현재 동일한 주장들에 대해 사람이 직접 정답 라벨을 부여하고, 이를 기준으로 각 모델의 정확도를 평가하는 추가 연구를 진행 중이라고 밝혔다. 또한 중요한 것은 모델 간 불일치 자체를 드러내는 것이라며, 어떤 유형의 주장들이 의견 차이를 유발하는지 확인하는 데 의미가 있다고 설명했다.

이번 결과는 AI 기반 검색과 팩트체크 서비스의 한계도 보여준다. 특히 공공 데이터나 인물 관련 사실처럼 비교적 객관적 검증이 가능한 사안에서도 모델별 판단이 달랐다는 점은, 사용자가 단일 AI 모델의 답변을 그대로 사실로 받아들이기 어렵다는 점을 시사한다. 검색 기능이 결합된 모델 역시 항상 더 정확하거나 일관된 결론을 제공하는 것은 아닌 것으로 나타났다.

업계에서는 향후 인간 평가를 기준으로 어떤 유형의 주장에 불일치가 집중되는지, 또 어떤 모델이 인간 판단과 가장 자주 어긋나는지를 분석하는 작업이 AI 기반 팩트체크 서비스의 신뢰도를 평가하는 중요한 기준이 될 것으로 보고 있다.

AI가 정보 검증의 새로운 도구로 자리 잡고 있지만, 적어도 현재 단계에서는 여러 모델의 결과를 교차 확인하고 인간의 최종 검증을 거치는 과정이 여전히 필요하다는 점을 보여주는 사례로 평가된다.