오픈AI, AI 웹 검색 능력 평가 도구 ‘브라우즈콤프’ 공개
||2025.04.14
||2025.04.14
[디지털투데이 AI리포터] 오픈AI가 AI 에이전트의 웹 검색 능력을 평가하는 고난도 벤치마크 ‘브라우즈콤프'(BrowseComp)를 공개했다.
11일(현지시간) 온라인 매체 기가진에 따르면 웹 검색 능력을 테스트하는 기존 벤치마크 ‘심플QA’가 있었지만, GPT-4o 같은 최신 브라우징 모델들은 이미 이를 뛰어넘는 성능을 보이고 있다. 이에 따라 오픈AI는 복잡하고 찾기 어려운 정보를 탐색하는 능력을 평가할 수 있는 브라우즈콤프를 개발했다. 이는 브라우징콤피티션(Browsing Competition, 브라우징 경쟁)의 약자다.
브라우즈콤프는 1266개의 고난도 문제로 구성되며, 각 문제는 다음 조건을 만족해야 한다. 첫째, GPT-4o, 오픈AI o1, 딥리서치 초기 버전으로는 해결할 수 없어야 한다. 둘째, 인간 트레이너가 검색 엔진으로 5회 검색했을 때 첫 페이지에 답이 없어야 한다. 셋째, 사람이 10분 이내에 해결할 수 없어야 한다. 만약 40% 이상의 트레이너가 정답을 맞히면 문제를 수정한다.
브라우즈콤프 문제의 주제는 TV 및 영화(16.2%), 과학 및 기술(13.7%), 예술(10%), 역사(9.9%), 스포츠(9.7%) 등으로 구성된다.
브라우즈콤프 문제를 사람에게 풀게 한 결과, 2시간 이내에 29.2%만 답변을 제출했고, 그중 86.4%가 정답이었다. AI 모델을 테스트한 결과, 오픈AI o1은 9.9% 정답률을 기록했지만, 웹 검색 AI인 딥리서치는 51.5%의 정답률을 보였다.
오픈AI는 브라우즈콤프가 단순 검색 능력뿐 아니라, ‘검색을 재구성하는 능력’과 ‘여러 정보원에서 단서를 조합해 답을 도출하는 능력’을 평가할 수 있다고 결론지었다.
고객님만을 위한 맞춤 차량