오픈AI, 위험 감지·대응 강화한 ‘준비 프레임워크’ 개편…AI 모델 안전성 보장
||2025.04.17
||2025.04.17
[디지털투데이 AI리포터] 오픈AI가 자사 인공지능(AI) 모델의 위험 수준을 평가하고 대응 방안을 체계화한 준비 프레임워크를 전면 개정했다.
16일(현지시간) IT매체 테크크런치에 따르면 이번 개편은 고위험 기술에 대한 선제적 식별과 효과적인 대응 체계를 강화하기 위한 조치로, 위험 평가의 우선순위를 정하는 기준을 구체화하는 것이다.
이는 모델이 잠재적으로 유해한 공격을 수행하는 방법을 제안하지 않도록 차단하는 것을 목표로 한다. 기술 위험도를 추적하는 대상에는 생물학 및 화학, 사이버보안 등의 분야가 포함된다. 특히 이는 오픈AI의 콘텐츠 정책을 기반으로 훈련되어 생물 및 화학적 위험과 관련된 프롬프트를 식별하고, 모델이 해당 주제에 대한 조언을 거부하도록 지시한다.
오픈AI는 이번 개정을 GPT-4.5, GPT-4o, 오퍼레이터(Operator), o3-미니(mini) 등 최신 모델 개발에 이미 반영하고 있으며, 향후 새로운 기술이 등장할 때마다 준비 기준과 위험 대응 방안을 추가하고 수정할 계획이라고 밝혔다.
오픈AI는 약 1000시간에 걸쳐 위험한 대화를 수집하고, 이를 기반으로 AI가 자체적으로 위험한 프롬프트를 차단하도록 학습시켰고, 그 결과 모델은 98.7%의 확률로 위험 요청을 차단했으나, 반복된 시도까지 완벽히 막지는 못했다고 밝혔다. 이에 따라 오픈AI는 자동화된 시스템과 인간 모니터링을 병행할 계획이다.
한편, 오픈AI는 GPT-4o의 이미지 생성 기능에서도 유사한 안전 모니터링을 적용해 아동 성적 학대 이미지(CSAM) 생성 가능성을 차단하고 있다. 하지만 일부 연구자들은 오픈AI의 안전 조치가 충분하지 않다고 지적한다. AI 리스크 평가업체 Metr는 'o3'의 기만적 행동을 테스트할 시간이 부족했다고 밝혔으며, 오픈AI는 최근 출시된 GPT-4.1의 안전 보고서를 공개하지 않아 논란이 되고 있다.
고객님만을 위한 맞춤 차량