"당신은 전문가입니다" 프롬프트, 오히려 역효과…AI 정확도 낮춘다

AI 모델에게 전문가 역할을 부여하는 것이 오히려 성능 하락으로 이어질 수 있다는 연구 결과가 나왔다. [사진: 셔터스톡]

[디지털투데이 이윤서 기자] 대형언어모델(LLM) 모델에 "당신은 이 분야 전문가입니다"라고 규정하는 프롬프트가 오히려 정확도를 떨어뜨릴 수 있다는 연구 결과가 나왔다.

3일(현지시간) 온라인 매체 기가진에 따르면 남캘리포니아대 지자오 후 연구팀은 6개 인공지능(AI) 모델을 대상으로 '전문가 페르소나 프롬프트'의 효과를 검증한 결과, 코딩과 수학 등에서 성능 저하를 확인했다.

기존 연구에서는 AI에 특정 과제와 관련된 전문가 역할을 부여하면 성능이 개선될 수 있다는 결과가 제시된 바 있다. 예컨대 새에 대해 설명하도록 할 때 자동차 전문가보다 조류 전문가 역할을 부여한 AI가 더 나은 답변을 내놓는 식이다. 이런 인식이 확산되면서 AI가 스스로 전문가 역할을 수행하도록 유도하는 프롬프트 가이드도 등장했다.

이에 지자오 후 연구팀은 라마-3.1-8B(Llama-3.1-8B)와 큐웬2.5-7B(Qwen2.5-7B)를 포함한 6개 모델에 서로 다른 프롬프트를 적용해 벤치마크 성능을 비교했다. 실험에는 "당신은 소프트웨어 엔지니어입니다"처럼 짧은 지시어, 그리고 특정 분야의 깊은 전문성과 풍부한 경험을 강조하는 긴 지시어가 함께 쓰였다.

결과는 과제별로 엇갈렸다. 다중 턴 대화 성능을 보는 MT-Bench에서는 글쓰기와 추론 영역에서 복잡한 전문가 프롬프트가 출력 품질을 일부 끌어올렸다. 반면 코딩, 수학, 인문 분야에서는 오히려 품질이 낮아졌다. 폭넓은 지식 정확도를 평가하는 MMLU에서도 전반적인 성능 하락이 확인됐다. 연구진은 "당신은 전문가입니다"라는 지시어가 더 좋은 답을 보장하지 않았다고 봤다.

연구팀은 이런 현상의 배경으로 모델의 자원 배분 문제를 지목했다. 후 연구진은 "전문가가 되라는 지시어가 원래 사실을 떠올리는 데 쓰여야 할 능력을 지시를 따르는 데 사용하게 만들 수 있다"고 설명했다. 모델이 실제 전문지식을 새로 얻는 것은 아닌데, 전문가처럼 행동하라는 형식적 요구에 계산 자원을 쓰면서 정확도가 흔들릴 수 있다는 의미다.

특히 코딩 영역에서는 통념과 다른 결과가 나왔다. 연구진은 "AI에 당신은 숙련된 프로그래머라고 말해도 코드의 품질이나 유용성은 향상되지 않는다"고 밝혔다. 이어 프로젝트 요구사항을 더 구체적으로 전달하는 편이 사용자가 원하는 코드를 생성하는 데 더 도움이 된다고 했다. 역할을 부여하는 방식보다 작업 조건과 산출물 기준을 명확히 제시하는 편이 효과적이라는 의미다.

다만 전문가 페르소나 프롬프트가 전면적으로 부정적인 것만은 아니었다. 연구에서는 AI 정렬, 특히 인간의 윤리 기준에 맞춰 응답을 통제하는 측면에서는 개선 가능성도 확인됐다. 비윤리적 콘텐츠를 얼마나 잘 차단하는지 평가하는 JailbreakBench에서는 큰 폭의 개선 효과를 보였다. 정확도와 정렬이 같은 방향으로 움직이지 않을 수 있다는 점이 드러난 셈이다.

이 결과는 프롬프트 설계 관행에도 영향을 줄 수 있다. 그동안 일부 사용자들 사이에서는 모델에게 먼저 전문가 정체성을 부여하면 성능이 좋아진다는 인식이 널리 퍼져 있었다. 관련 가이드도 적지 않았다. 하지만 이번 실험은 이런 방식이 과제 종류에 따라 역효과를 낼 수 있음을 보여줬다.

이에 따라 코딩 보조나 수학 문제 해결처럼 정답 정확도가 중요한 작업에서는 '전문가 역할'을 강조하기보다, 필요한 형식과 제약 조건, 프로젝트 요구사항을 구체적으로 제시하는 접근이 더 유효할 가능성이 커졌다. 반대로 안전성 통제가 중요한 환경에서는 전문가 페르소나가 보조 수단으로 활용될 여지는 남았다.

이번 연구는 프롬프트 설계에서 중요한 것은 모델에 어떤 역할을 맡기느냐보다, 사용자가 원하는 작업의 조건을 얼마나 명확히 전달하느냐라는 점을 보여준다. 특히 정확한 답이 필요한 작업일수록 "전문가처럼 답하라"는 포괄적 지시보다 문제 범위, 출력 형식, 판단 기준을 구체화하는 방식이 더 안정적인 결과로 이어질 수 있다.