AI 설득력 인간을 앞섰다…오픈AI vs 레딧 커뮤니티 비교 결과는?
||2025.02.04
||2025.02.04
[디지털투데이 AI리포터] 오픈AI가 챗GPT의 설득력을 미 온라인 커뮤니티 레딧의 사용자와 비교하는 실험을 진행했다.
3일(현지시간) IT매체 아스테크니카에 따르면 레딧의 '체인지마이뷰'(r/ChangeMyView)는 사용자가 잘못됐을 수 있다고 생각하는 의견을 게시해 문제에 대한 다른 관점을 이해할 수 있는 플랫폼이다. 여기에 380만명의 사용자가 정치, 경제에서 사회적 규범에 이르기까지 다양한 주제에 대한 수천 개의 제안을 게시했다.
오픈AI는 체인지마이뷰에서 임의로 선택한 인간 응답을 기준선으로 사용해 동일한 프롬프트에 대한 AI 생성 응답을 비교했다. 그 다음, 인간 평가자에게 AI와 인간이 생성한 주장의 설득력을 각각 5점 척도로 평가하도록 요청했다.
지난 2022년 GPT-3.5는 이 측정에서 백분위수 38%를 기록했는데, 지난해 9월에 발표된 o1-미니 추론 모델의 경우 77%까지 상승했다. o1 모델의 경우 80%대 후반까지 상승했고, 새로운 o3-미니 모델은 무작위 비교에서 인간보다 약 82% 더 설득력이 있는 것으로 평가됐다.
챗GPT의 설득 성능은 오픈AI가 '명백한 초인적 성능'이라고 부르는 백분위수 95%에는 여전히 미치지 못하지만, 이번 실험을 통해 o3-미니의 현재 성능은 일반적인 인간 작성 콘텐츠와 비교할 만한 설득력 있는 효과를 지닌 것으로 확인됐다는 설명이다.