애플, LLM 정확도 향상 위한 체크리스트 기법 도입…성능 8.2% 개선
||2025.08.26
||2025.08.26
[디지털투데이 AI리포터] 애플 연구진이 대형언어모델(LLM)의 성능을 높이기 위해 새로운 학습 방식을 제안했다고 25일(현지시간) IT매체 나인투파이브맥이 전했다.
기존에는 LLM 훈련 후 인간 피드백 기반 강화 학습(RLHF) 방식이 일반적이었다. RLHF는 모델의 답변에 인간이 '좋아요'나 '싫어요'로 평가하며 모델이 더 바람직한 답변을 학습하도록 돕는 방식이다.
하지만 이번 연구에서 애플은 기존 방식과 다른 체크리스트 피드백 기반 강화 학습(RLCF)이라는 새로운 방식을 제안했다.
RLCF는 체크리스트의 각 항목을 얼마나 잘 충족하는지에 따라 0~100점 척도로 답변을 평가한다. 더 큰 모델이 작은 모델을 평가해 가중치를 부여하는 구조다. 이를 통해 복잡한 지시문 처리 능력을 향상하도록 한다.
연구 결과, 일부 벤치마크에서 기존 RLHF 대비 최대 8.2% 성능 향상이 나타났다. 다만 연구진은 RLCF가 복잡한 지시문 처리에만 효과적이고 다른 분야에서는 효과가 크지 않다고 전했다.
고객님만을 위한 맞춤 차량
