“급변하는 AI 기술, 성능 평가 기준도 ‘업데이트’ 필요”
||2024.11.12
||2024.11.12
인공지능(AI) 기술의 발전 속도가 빨라짐에 따라 미국의 주요 기술 기업들이 AI 모델의 성능 평가 방식의 재설계 필요성을 논의하고 있는 것으로 나타났다.
9일(현지시각) 파이낸셜타임스(FT)는 최근 기업들이 AI 모델의 능력을 평가하기 위해 사용하는 '벤치마크' 테스트 외에 새로운 평가방식의 필요성이 제기되고 있다고 보도했다. 일부 신모델의 정확도가 기존 테스트에서 지나치게 높게 나타났기 때문이다.
최근 오픈AI, 마이크로소프트, 메타, 앤트로픽 등 주요 기술 기업들은 인간의 업무를 자동으로 수행할 수 있는 'AI 에이전트' 구축 계획을 발표했다. 이에 실현을 위한 적절한 평가 방안의 필요성도 커지고 있다. 메타플랫폼은 "업계의 발전 속도가 워낙 빨라 AI 신모델을 평가하는 데 어려움이 생기고 있다"고 언급했다.
이러한 상황에서 다수의 기업들이 자체 벤치마크를 개발하고 있으나 업계 일부에서는 공개된 평가 기준이 부족해 기술 비교가 어려울 것이라는 우려도 나오고 있다.
오픈AI 측은 "사람이 설계한 기존의 많은 테스트가 AI 모델의 능력을 충분히 평가하기에 적절하지 않다"고 말했다. 현재 일반적으로 사용되는 벤치마크는 다지선다형 질문을 통해 AI의 지식을 평가하고 있지만 보다 복잡한 테스트가 필요하다는 지적이다.
한편, 기존 벤치마크 중 하나인 'SWE-bench Verified'는 지난 8월 오픈AI 등의 의견을 반영해 업데이트했으며 깃허브 등에서 가져온 실제 문제를 테스트에 활용하고 있다. 오픈AI의 최신 모델 GPT-4는 이 테스트에서 41.4%의 문제를 풀었고 앤트로픽의 클로드 3.5 소넷 모델은 49%의 문제를 해결한 것으로 나타났다.
전문가들은 AI 모델 평가 방식에 대한 명확한 합의가 이뤄지지 않으면서 기업들이 서로의 모델을 비교 평가하는 것이 어려워질 수 있다고 지적한다. 댄 헨드릭스 AI 안전센터 이사는 "테스트가 비공개일 경우 기업 간 또는 사회 전반에서 평가의 객관성을 확보하기 어렵다"고 말했다.
홍주연 기자 jyhong@chosunbiz.com
고객님만을 위한 맞춤 차량