"오픈AI ‘o1’, 스스로 답변 평가 가능해"…편향 테스트 결과는

[디지털투데이 AI리포터] 오픈AI의 글로벌 담당 부사장인 안나 마칸주(Anna Makanju)는 새로운 추론 모델인 'o1'이 AI의 편향성을 줄일 수 있는 잠재력을 가지고 있다고 주장했다고 26일(현지시간) IT매체 테크크런치가 전했다.

마칸주에 따르면 o1과 같은 모델은 답변의 편향성을 스스로 식별하고, 해로운 방식으로 응답하지 않도록 지시하는 규칙을 더 면밀히 준수할 수 있다.

마칸주는 "o1과 같은 모델은 실제로 더 오래 걸리고 자신의 반응을 평가할 수 있다. 이를 통해 모델은 '내가 이 문제에 접근하는 방식은 이렇구나'라고 말할 수 있고, 자신의 반응을 보고 '이건 내 추론의 결함일 수 있겠구나'라고 말할 수 있다"고 전했다.

이어 "이 기능은 거의 완벽하게 작동한다"며 "모델은 스스로 편향을 분석해 더 나은 응답을 만들 수 있으며, 이 기능은 점점 더 향상될 것"이라고 덧붙였다.

그러나 오픈AI의 편향 테스트 결과, o1은 일부 경우에서는 비추론 모델인 GPT-4o보다 더 나쁜 성능을 보였다. o1은 인종, 나이, 성별에 따라 암묵적으로 차별할 가능성이 GPT-4o보다 낮았지만, 연령과 인종에 대해 명시적으로 차별할 가능성이 더 높았다.

특히 더 저렴하고 효율적인 버전인 o1-미니는 더 나쁜 결과를 보였다. 이 모델은 GPT-4o보다 성별, 인종, 연령을 명시적으로 차별할 가능성이 더 높았으며, 연령을 암묵적으로 차별할 가능성도 더 높았다고 한다.