챗GPT는 계속 걸렸는데…‘구글 제미나이’ 사람 같은 문체 구현서 우위
||2026.04.17
||2026.04.17
[디지털투데이 이윤서 기자] 구글 제미나이(Gemini)가 주요 인공지능(AI) 챗봇 가운데 인간이 쓴 글에 가장 가깝게 보이는 결과물을 내놨다는 평가를 받았다.
16일(현지시간) IT매체 테크레이더는 오픈 리소스 애플리케이션(ORA)의 실험을 인용, 널리 사용되는 AI 챗봇 12개에 동일한 과제를 부여해 결과물을 비교한 결과 제미나이의 탐지율이 가장 낮았다고 보도했다.
이번 시험은 각 모델에 사람처럼 읽히는 장문 기사 작성을 지시한 뒤, 그래머리(Grammarly), 퀼봇(QuillBot), GPT제로(GPTZero) 등 3개 탐지 플랫폼에 넣어 'AI가 작성했는지, 인간이 작성했는지' 여부를 가리는 방식으로 진행됐다.
가장 눈에 띄는 결과를 낸 모델은 제미나이였다. 그래머리에서는 제미나이가 생성한 글이 다른 모델보다 훨씬 덜 탐지됐고, 퀼봇에서는 AI 작성물로 전혀 판별되지 않았다. 반면 GPT제로는 전반적으로 대부분의 AI 생성 텍스트를 식별했다.
ORA는 제미나이의 강점으로 '문장 구조'와 '전개 방식'의 차별성을 꼽았다. AI 탐지기는 대체로 예측 가능한 표현과 반복되는 구조를 패턴으로 잡아내는데, 제미나이는 이러한 패턴에서 차별점을 보인다는 것이다. ORA 대변인은 "GPT제로 같은 도구는 예측 가능성뿐 아니라 글 전체 구조도 함께 본다"며 "익숙한 문구를 재활용하기보다 실제로 아이디어를 전개하는 모델일수록 식별하기가 훨씬 어려워진다"고 말했다.
반면 챗GPT는 같은 실험에서 상대적으로 낮은 성적을 받았다. ORA 측은 챗GPT가 낮은 순위에 머문 이유로 "시장에 가장 먼저 나온 대형 AI"라는 점을 들며, "이미 많은 이들이 챗GPT 특유의 문체를 알고 있어 탐지기가 더 쉽게 식별한다"고 설명했다. 또 많은 후발 모델이 처음에는 챗GPT처럼 말했지만, 이후 각자의 문체를 만들기 시작했다고 덧붙였다.
다만 탐지 도구 간 성능 차이도 컸다. 그래머리는 전체 AI 생성 콘텐츠의 43.5%만 식별해 가장 낮은 탐지력을 보였지만, GPT제로는 약 99%를 인식해 가장 높은 성능을 기록했다. 같은 글이라도 어떤 도구를 쓰느냐에 따라 사람 글로 보이거나 AI 글로 판정될 수 있다는 뜻이다.
이러한 차이는 실제 사용 환경에서 더 직접적인 문제로 이어질 수 있다. 그 예로 학생이 과제를 제출했을 때 한 탐지기에서는 통과하고 다른 탐지기에서는 적발된다거나, 사무직 근로자의 문서 역시 어떤 소프트웨어를 쓰는지에 따라 의심을 받을 수 있다. 온라인에서 글의 출처와 신뢰를 판단하는 기준이 도구마다 달라질 수 있다는 점이 드러난 셈이다.
이와 함께 AI 글쓰기의 양상도 하나의 문체로 수렴하지 않고 점점 더 다양해지고 있다. 최근 한 연구에 따르면 '온라인 콘텐츠의 절반가량이 AI로 생성됐을 수 있다'는 내용도 존재한다. 모델마다 스타일이 달라지면서 단일한 AI 문체를 상정해 탐지하는 방식은 갈수록 한계에 부딪히고 있다.
결국 이번 시험은 제미나이가 단순히 글을 잘 쓴다기보다, 사람 글과 더 비슷하게 읽히는 결과물을 내놓고 있다는 점을 보여준다. 탐지 도구가 뒤따라 개선되고 다른 모델도 비슷한 방향으로 발전할 수는 있겠지만, 현재로서는 인간과 AI의 글을 뚜렷하게 가르는 기준 자체가 빠르게 흔들리고 있다는 점이 더 분명해졌다.
고객님만을 위한 맞춤 차량
