AI 모델 훈련에 ‘해적판 콘텐츠’ 수십TB 이용한 메타
||2025.02.11
||2025.02.11
[디지털투데이 AI리포터] 마크 저커버그 최고경영자(CEO)가 이끄는 빅테크 기업 메타(Meta)가 자사의 대규모 언어 모델(LLM)인 라마(LLaMA) 개발을 위해 상당한 데이터의 해적판 전자책 데이터를 사용했다는 증거가 제시됐다.
10일(현지시간) 일본 IT 매체 기가진에 따르면 메타는 'Z-라이브러리'(Z-Library)와 '안나스 아카이브'(Anna’s Archive) 등 해적판 전자책 라이브러리에 저장된 81.7테라바이트(TB)의 데이터를 활용해 인공지능(AI)을 훈련한 증거가 법정에 등장했다.
코미디언이자 작가인 사라 실버만(Sarah Silverman)과 작가 크리스토퍼 골든(Christopher Golden), 리처드 캐드리(Richard Kadrey) 등은 메타와 오픈AI가 불법으로 유통되는 작품을 AI 훈련에 사용한 혐의로 지난 2023년 7월 소송을 제기했다. 메타는 '라이브젠'(LibGen)을 사용한 AI 훈련은 공정하다"고 주장했으나 데이터 다운로드 시 페이스북 인프라를 피함으로써 메타의 참여를 숨기려 했다는 내부 이메일이 드러난 바 있다.
원고 측은 "메타가 데이터 수집 과정에서 저작권 침해를 인식하고 있었다"고 주장하며, 이들의 행위가 불법이라고 지적했다. 반면 메타 측에서는 "원고의 저작물이 메타에 의해 배포되었다는 증거가 없다"고 반박하며 소송 기각을 요구하고 있다.