첨단 추론 AI 모델 쏟아지는데...오히려 증가 ‘환각 현상’ 왜?
||2025.05.09
||2025.05.09
[디지털투데이 황치규 기자] 오픈AI, 구글, 중국 딥시크 등이 보다 강력한 AI 기술인 추론(reasoning) 모델을 앞다퉈 내놓고 있지만 오류는 줄지 않고 오히려 늘고 있다는 지적이 나와 배경에 관심이 쏠린다.
뉴욕타임스 최근 보도를 보면 수학 관련해 추론 모델들 성능은 크게 개선됐지만 사실을 다루는 역량 측면에선 불확실성이 커졌다. 그 이유는 명쾌하지 않다.
거대언어모델(LLM) 기반 AI 챗봇들은 대규모 데이터 분석을 통해 학습한 복잡한 수학적인 시스템들에 기반하고 있다. 이들 AI 챗봇들은 무엇이 사실이고 거짓인지 결정하지 않으며 그렇게 할 수도 없다. 때문에 AI 챗봇들은 종종 없는 얘기를 만들어 내기도 한다. AI판에서 이는 할루시네이션(hallucinations, 환각)으로 불리운다.
이들 시스템은 가장 좋은 답이 무엇인지 판단하는데 있어 사람이 사전에 정해 놓은 엄격한 규칙들이 아니라 수학적인 확률을 사용한다. 그런만큼 처음부터 실수에서 자유로울 수 없는 구조다.
할루시네이션은 챗GPT가 나올때부터 AI가 풀어야할 숙제들 중 하나로 꼽혔다. AI 기술이 발전하면서 할루시네이션은 줄어들 것이란 전망도 많았지만 현실은 아직 이같은 시나리오와는 거리가 있다.
뉴욕타임스는 한 실험 결과를 예로 들며 새로운 AI 시스템들 환각률은 최대 79%에 달했다고 보도했다.
이는 추론 모델 사용과도 무관치 않아 보인다. 지난 몇년 간 오픈AI와 구글 등은 AI 시스템을 꾸준히 개선해왔고 에러가 발생하는 빈도도 줄였지만 추론 모델 사용과 함께 에러가 증가하고 있다고 뉴욕타임스는 전했다.
보도에 따르면 최신 오픈AI 모델들도 이전 버전에 비해 높은 할루시네이션 비율을 보이고 있다. 회사 자체 테스트 결과도 그렇다.
최고 성능 추론 모델인 오픈AI o3는 유명 인사들 관련 질문에 대한 답을 포함하는 퍼슨QA(PersonQA) 벤치마크 테스트에서 할루네이션 비중이 33%를 기록했다. 이전 모델인 o1과 비교해 두배 이상 높은 수치다. 최신 o4-미니 모델의 경우 할루시네이션 비률은 48%에 달했다고 뉴욕타임스는 전했다.
보다 일반적인 질문을 다루는 심플QA(SimpleQA) 테스트 결과도 마찬가지다. o3와 o40미니 모델 할루시네이션율은 각각 51%와 79%였다. 이전 모델들인 o1의 경우 44%였다. 오픈AI 모델만 그런 건 아니다. 독립 기업 및 연구자들 테스트 결과, 구글과 딥시크(DeepSeek) 등이 제공하는 추론 모델들에서도 할루시네이션이 늘고 있다고 뉴욕타임스는 전했다.
왜 이렇게 됐는지는 현재로선 분명치 않다. 오픈AI는 테스트 결과를 상세히 다룬 논문에서 원인을 파악하려면 보다 많은 연구가 필요하다고 밝혔다. AI 시스템들은 인간이 완전히 이해할 수 있는 것보다 데이터를 학습하기 때문에, 기술자들은 AI가 왜 그런 식으로 작동하는지 파악하는 데 애를 먹고 있다고 뉴욕타임스는 전했다.
워싱턴 대학교 교수이자 앨런 인공지능 연구소(Allen Institute for Artificial Intelligence) 연구원인 한나네 하지시르지(Hannaneh Hajishirzi)는 "AI 모델들은 엄청난 양의 데이터를 학습해 거의 모든 것을 생성할 수 있기때문에 우리는 여전히 이들 모델이 정확히 어떻게 작동하는지 모른다"고 말했다.
오픈AI 대변인은 “환각 현상은 추론 모델에서 본질적으로 더 흔한 건 않지만 o3 및 o4-미니에서 관찰된 높은 환각 발생률을 줄이기 위해 적극적으로 노력하고 있다“면서 "모든 모델들에서 환각 현상에 대한 연구를 계속해 정확성과 신뢰성을 개선할 것이다"고 말했다.
그동안 오픈AI와 같은 AI 개발사들은 보다 많은 데이터와 컴퓨팅 파워를 투입하면 AI 모델은 개선된다는 이른바 확장의 법칙 중심으로 기술을 개발해왔다. 하지만 이용할 수 있는 데이터 자체가 한계에 달하면서 관련 업계는 추론 모델 다양한 접근을 시도하는 모습이다. 이 과정에서 강화학습(Reinforcement learning)에 대한 의존도 높아지는 모양새다. 강화학습은 시행착오를 통해 행동을 학습하는데, 이는 수학이나 컴퓨터 프로그래밍과 같은 특정 분야에선 잘 작동하지만, 다른 분야에서는 한계를 보여주고 있다고 뉴욕타임스는 전했다.
고객님만을 위한 맞춤 차량