왜 AI는 역사에 약할까…챗GPT 정확도 46%
||2025.01.20
||2025.01.20
[디지털투데이 AI리포터] 한 연구팀이 역사 문제에 대해 3대 대규모언어모델(LLM)인 오픈AI GPT-4, 메타의 라마, 구글 제미나이를 테스트하는 새로운 벤치마크를 진행했다.
19일(현지시간) IT매체 테크크런치에 따르면 이 벤치마크는 오스트리아 연구 기관인 복잡성 과학 허브(CSH·Complexity Science Hub) 연구팀이 만들었다.
그러나 벤치마크 테스트 결과, 가장 성능이 좋은 LLM은 GPT-4 터보였지만 정확도는 약 46%에 불과했다. 이 연구의 주요 시사점은 LLM이 인상적이긴 하지만 고급 역사에 필요한 이해의 깊이가 아직 부족하다는 것이다.
연구팀은 LLM이 "기본적인 사실에 대해서는 훌륭하지만 미묘한 박사 수준의 역사적 탐구에는 아직 미치지 못한다"고 전했다.
왜 LLM은 코딩과 같은 매우 복잡한 질문에는 능숙하게 대답할 수 있는데 기술적인 역사적 질문에 대한 대답을 잘하지 못할까? 이에 대해 연구팀은 LLM이 매우 눈에 띄는 역사적 데이터에서 추론하는 경향이 있어 더 모호한 역사적 지식을 검색하기 어렵기 때문일 수 있다고 말했다.
연구팀은 소외된 지역의 데이터를 더 많이 포함하고 더 복잡한 질문을 추가하여 벤치마크를 개선하기 위해 노력하고 있다.