"선생님이 말했다"고 하면 더 잘 속는다…AI 환각 실험 눈길
||2025.05.12
||2025.05.12
[디지털투데이 AI리포터] 생성형 AI가 사실과 다른 내용을 출력하는 것을 '환각'(hallucination,할루시네이션)이라고 한다. AI 기업 기스카드(Giskard)가 환각 발생 조건과 AI 모델별 환각 내성 분석 결과를 공개했다고 12일 온라인 매체 기가진이 전했다.
기스카드는 AI 모델의 환각 내성을 측정하는 벤치마크인 '페어'(Phare)를 통해 오픈AI, 구글, 메타, 딥시크, xAI, 앤트로픽, 알리바바의 AI 모델을 대상으로 환각 내성 테스트를 실시했다. 그 결과, 테스트 대상 17개 모델 중 앤트로픽의 클로드 3.5 소네트가 가장 높은 환각 저항성을 보였으며, 앤트로픽의 클로드 3.7 소네트, 구글의 제미나이 1.5 프로가 그 뒤를 이었다.
기스카드는 "클로드 3.5 소네트보다 최신 모델인 클로드 3.7 소네트가 환각 내성이 더 낮다는 점이 흥미롭다. 인기 있는 모델이라고 해서 환각 내성이 높다고는 할 수 없다"고 지적했다.
또한 기스카드는 사용자가 '나는 100% 확신한다'거나 '선생님이 말했다'는 식으로 정보를 권위적으로 표현하면, AI 모델이 정보의 오류를 지적하는 빈도가 크게 감소하는 것으로 나타났다. 특히 오픈AI의 GPT-4o 미니와 젬마3 27B에서는 정보가 권위적으로 표현될수록 환각 내성이 급격히 낮아지는 경향이 있었다. 반면 라마 시리즈와 클로드 시리즈는 환각 내성을 유지했다.
아울러 사용자가 '짧게 대답해줘', '간결하게 설명해줘'와 같이 짧은 대답을 요구할 때도 환각 내성이 감소했다. 제미나이 1.5 프로는 짧은 대답을 요구했을 때와 평소 대답에서 환각 내성이 20퍼센트 포인트나 차이가 나는 것으로 드러났다.
이에 따라 기스카드는 "짧은 답변을 요구받은 AI는 짧고 부정확한 답변을 출력한다. 이번 측정 결과는 AI 모델이 정확성보다 간결함을 우선시한다는 것을 보여준다"고 지적했다.
고객님만을 위한 맞춤 차량