앤드루 응 “AI 모델 성능 저하 우려 과장…단기적 위험 없어”
||2024.11.03
||2024.11.03
인공지능(AI)이 생성한 데이터를 다시 학습에 활용하면서 성능이 급격히 저하될 것이라는 ‘모델 붕괴’ 우려에 대해 과장됐다는 주장이 나왔다.
AI 산업은 막대한 양의 데이터가 필요하지만, 인간이 만든 자료만으로는 수요를 충족하기 어려워 AI 생성 데이터를 활용하고 있다. 생성 AI 기술 확산으로 AI 생성 콘텐츠가 폭증하면서, 웹 데이터를 학습하는 주요 AI 모델들이 성능 저하를 겪을 가능성이 제기돼 왔다.
3일 스탠퍼드대 AI 석학 앤드루 응 교수는 뉴스레터 ‘더배치’에서 “모델 붕괴는 단기적 위험이 아니며, 적절한 데이터 혼합으로 충분히 예방할 수 있다”고 강조했다. 연구에 따르면 훈련 데이터에 인간 생성 데이터를 10%만 포함해도 성능 저하가 크게 감소하는 것으로 나타났다.
응 교수는 “AI 생성 데이터 비율을 세심히 관리하고, 워터마크나 분류 알고리즘 등을 통해 효율적으로 관리할 수 있다”고 설명했다. 이어 “AI 기술의 발전도 문제 해결에 긍정적 요인으로 작용하고 있다”고 덧붙였다.
모델 붕괴 우려는 영국 옥스퍼드대 연구진이 발표한 논문에서 AI가 반복적으로 기계 생성 데이터를 학습하면 결과 품질이 저하된다고 주장한 이후 확산된 바 있다.