애플, AI 모델 훈련 방식 공개…모듈형 구조·다국어 지원 확대
||2025.07.22
||2025.07.22
[디지털투데이 AI리포터] 애플이 WWDC 205에서 온디바이스 및 클라우드 기반 모델의 새로운 버전을 발표한 데 이어 이 모델들의 훈련 및 최적화 과정을 담은 기술 보고서를 공개했다.
21일(현지시간) IT매체 나인투파이브맥은 애플이 최근 공개한 보고서 '애플 인텔리전스 기반 언어 모델-기술 보고서 2025'(Apple Intelligence Foundation Language Models – Tech Report 2025)를 인용해 데이터 소스, 사전 및 사후 학습, 도구 사용 개발, 최적화 및 벤치마크 등 새로운 모델의 여러 측면을 살폈다.
해당 보고서에 따르면 애플의 온디바이스 AI 모델은 30억 개 파라미터로 구성되며, 메모리 사용량을 37.5% 줄이는 이중 블록 구조로 설계됐다. 이를 통해 첫 토큰 출력 속도가 동일하게 단축됐지만, 성능은 유지된다고 애플은 설명했다.
클라우드 기반 모델은 '패러랠 트랙 믹스쳐 오브 익스퍼트'(Parallel-Track Mixture-of-Experts, PT-MoE)' 구조를 채택했다. 이는 대형 AI 모델을 여러 전문 서브네트워크로 나누어, 입력된 질문에 맞는 전문가만 활성화하는 방식이다. 예를 들어, 요리 관련 질문이 들어오면 요리 전문가만 작동해 처리 속도와 정확성을 높이는 구조다.
애플은 새로운 '패러랠 트랙 트랜스포머'(Parallel Track Transformer’)를 개발해 전문가 혼합(MoE) 레이어와 결합했다. 이는 기존 트랜스포머가 단일 트랙으로 토큰을 처리하는 방식과 달리, 여러 평행 트랙을 활용해 처리 속도를 높이는 구조다.
다국어 지원도 대폭 강화됐다. 애플은 다국어 데이터 비중을 8%에서 30%로 늘리고, 토큰 단어 수를 10만개에서 15만개로 확장했다. 이를 통해 비영어권 언어에서도 성능이 향상됐으며, 강화학습을 통해 자연스러운 응답을 생성하도록 최적화했다고 한다.
데이터 수집은 주로 웹 크롤링을 통해 이루어졌으며, 애플은 로봇 배제 표준을 준수해 특정 사이트의 크롤링을 차단할 수 있도록 했다. 또한, 일부 데이터는 출판사와의 라이선스 계약을 통해 확보했으며, 코드·수학·비전 언어 태스크를 위한 합성 데이터를 생성해 모델 성능을 보강했다.
고객님만을 위한 맞춤 차량
