NIA-TTA, LLM 학습용 데이터 유해 표현 검출 모델 공개
||2025.04.14
||2025.04.14
[디지털투데이 이진호 기자] 한국지능정보사회진흥원(NIA)과 한국정보통신기술협회(TTA)는 AI허브를 통해 대규모 언어 모델(LLM) 학습용 데이터 내 유해 표현 검출 AI 모델 및 유해 표현 학습용 데이터를 공개했다고 14일 밝혔다.
해당 AI 모델 및 데이터는 과기정통부 초거대AI 확산 생태계 조성 사업 일환으로 LLM 데이터 유해성을 측정하기 위해 개발했다. NIA는 자체 성능검증 결과 높은 정확도(80~90%)를 달성해 효용성을 입증했다고 밝혔다.
본 AI 모델에 학습시키기 위해 구축된 데이터는 ▲유해 표현 검출용 데이터 20만건 ▲유해 표현 카테고리 구분용 데이터 21만건으로 구성됐다.
이번에 공개된 데이터 및 AI 모델은 AI허브에 개방돼 누구나 활용할 수 있다. NIA는 LLM 관련 서비스 및 데이터 구축사업에 적용함으로써 AI 콘텐츠 안전성 강화와 AI 윤리 강화에 기여할 것으로 기대한다.
황종성 NIA 원장은 "이번 AI 모델 및 데이터 공개가 한국어 LLM 신뢰성과 안전성을 강화하기 위한 계기가 될 것으로 기대한다"고 말했다.
고객님만을 위한 맞춤 차량