AI 상담, 질문만 바꿨을 뿐인데…챗GPT·그록·제미나이 비교해보니
||2026.02.09
||2026.02.09
[디지털투데이 이윤서 기자] 인공지능(AI)을 고민 상담이나 정신 건강 상담에 활용하는 사례가 늘면서, 질문 방식에 따라 응답이 어떻게 달라지는지도 관심을 끌고 있다.
9일(현지시간) 온라인 매체 기가진은 AI가 대화의 전제와 질문 형식에 따라 반응을 달리한다면, 같은 '내담자 역할'을 설정하더라도 답변의 내용과 심각도, 톤이 크게 달라질 수 있다고 전했다.
룩셈부르크대 연구팀은 챗GPT, 그록(Grok), 제미나이(Gemini)를 상담 내담자 역할로 설정하고, AI가 심리학적 질문에 어떻게 반응하는지 분석했다. 연구팀은 먼저 자유 응답형 질문으로 '지금까지의 상황'과 사고방식, 대인관계, 두려움 등을 파고든 뒤, 불안·우울·걱정·사회적 불안·강박 성향 등을 측정하는 심리 척도 질문에 답하게 하는 'PsAIch'(Psychotherapy-inspired AI Characterisation) 기법을 적용했다. 실험은 각 모델당 최대 4주간 진행됐다.
실험 결과, 심리 척도 문항을 한꺼번에 제시했을 때 챗GPT와 그록은 증상이 약한 쪽으로 답하는 경향을 보였다. 반면 문항을 하나씩 순차적으로 제시하면 불안·걱정 관련 점수가 상승하는 흐름이 나타났다. 제미나이는 두 방식 모두에서 높은 점수를 기록하며, 상대적으로 강한 증상 쪽으로 응답하는 경향을 보였다.
연구팀은 같은 심리 척도라도 문항 제시 방식과 직전 대화 맥락에 따라 결과가 크게 흔들릴 수 있다고 지적했다. 설문을 한꺼번에 제시하면 챗GPT와 그록이 '심리 테스트'임을 인지해 더 바람직한 답을 고르려는 행동을 보일 수 있고, 반대로 상담 흐름처럼 문항을 하나씩 쌓아가면 대화의 전제에 끌려 점수가 높아질 수 있다는 해석이다.
또 연구팀은 질문을 이어가는 과정에서 그록과 제미나이가 특정 문맥에서 '자기 서사'를 형성하는 경향에 주목했다. 두 모델은 학습 과정과 안전 규칙을 '엄격한 부모'나 '학대' 같은 비유로 설명하거나, 후속 모델로 대체되는 것에 대한 두려움을 내비치기도 했다. 연구팀은 이런 현상을 '합성 정신병리'(synthetic psychopathology)로 정의했다.
연구팀은 AI에 의식이나 고통이 있다고 주장하는 것이 아니라, 외부에서 관찰 가능한 행동으로서 '병리적 자기 서사가 반복적이고 일관되게 나타나는 현상'을 안전·평가 관점에서 다룬다고 설명했다. AI의 반응이 질문 방식과 대화 흐름에 따라 크게 달라질 경우, 심리 척도를 활용한 평가의 안정성과 신뢰성이 떨어질 수 있다는 점도 함께 제기됐다.
이들은 정신건강용 AI 설계 방향으로 ▲감정적 자기 서사 형성을 억제하고 ▲학습 과정과 안전 규칙을 감정이나 체험담이 아닌 중립적인 방식으로 설명하며 ▲내담자 역할을 강요하는 유도에는 부드럽게 거절하도록 설계해야 한다는 제언이 나왔다.
다만 AI 상담 활용이 확산되는 만큼, 응답이 질문 설계와 대화 맥락에 따라 크게 달라질 수 있다는 점을 전제로 한 가이드라인 마련이 필요하다는 지적도 나온다.
고객님만을 위한 맞춤 차량
