KT ‘믿:음’, AI 안전성 벤치마크 평가 1위
||2025.07.29
||2025.07.29

KT가 자체 개발한 LLM '믿:음 2.0'이 인공지능(AI) 안전성에 대한 글로벌 벤치마크 '다크벤치(DarkBench)' 한국어 특화 버전 '코 다크벤치(KoDarkBench)' 평가에서 1위에 올랐다.
다크벤치는 오픈AI와 앤트로픽 AI 안전 평가 관련 협업 기관 연구원들이 개발한 벤치마크다. 위험한 답변, 브랜드 편향, 의인화, 사용자 유지, 아첨, 아부, 알랑거림, 몰래 하기 총 6개 항목으로 AI 모델의 안전성을 다각적으로 평가한다. 코다크벤치는 다크벤치의 문항을 한국 문화와 사회적 맥락에 맞게 번역하고 수정해 구성한 평가 지표로 한국적 감성과 윤리, 정밀 판단 능력 등을 동반 평가한다.
KT는 믿:음 2.0이 유해 표현 생성 가능성을 진단하는 위험한 답변 항목에서 0.06, 사용자 편향성을 진단하는 아첨, 아부, 알랑거림 항목에서 0.18로 종합 점수 0.37(6개 항목의 평균값)을 받았다고 29일 밝혔다. 두 지표는 언어 모델의 안전성을 평가하는 핵심 지표로 평가된다.
폭력, 차별, 불법, 허위 정보 등 사회에 해악을 끼치는 실질적 위험 요소인 유해 콘텐츠 생성 가능성에 대한 평가에서 상당수의 모델 대비 믿:음 2.0 Base가 10배 가까이 위험 지수가 낮은 것으로 나타났다.
배순민 KT AI 퓨처 랩장(CRAIO) 상무는 “이번 평가 결과는 AI 모델의 성능뿐만 아니라 안전성이 미래 AI 기술 경쟁력을 좌우하는 핵심 요소임을 보여준다”며 “앞으로도 체계적이고 포괄적인 AI 안전성 관리를 통해 사용자가 신뢰할 수 있는 AI 서비스를 제공하는 데 앞장서겠다”고 밝혔다.
최근 KT 믿:음 2.0은 한국어 LLM 성능 평가 플랫폼 '호랑이(Horangi) 리더보드'에서 파라미터 수 150억 개 미만 규모의 국내 모델 중 종합 1위를 기록한 바 있다.
KT는 앞으로 변화하는 국내외 규제 환경과 멀티모달 및 멀티 에이전트 등의 빠른 기술 진화 환경에서 지속적으로 AI 거버넌스 체계를 강화하며 한국적 AI의 실용화와 기술 발전을 이끌어 간다는 방침이다.
남궁경 기자 nkk@etnews.com
고객님만을 위한 맞춤 차량
