앤트로픽도 쓴다… AWS ‘트레이니움 2’ AI 가속기 “GPU 대비 가성비 40%↑”
||2024.12.04
||2024.12.04
아마존웹서비스(AWS)가 자체 설계한 ‘트레이니움 2(Trainium 2)’를 사용한 AWS EC2(Elastic Compute Cloud) 인스턴스를 상용 서비스로 제공한다고 4일 밝혔다. 미국 동부 리전부터 일반 제공이 시작되며 곧 지원 리전이 확장될 예정이다.
6일(현지시각)까지 미국 네바다주 라스베이거스에서 열리는 ‘AWS 리인벤트(re:Invent) 2024’ 행사에서 AWS는 앤트로픽(Atnhropic)과 함께 AI 훈련을 위한 ‘트레이니움 2’ 기반 인프라를 구축하고 있다고 발표했다. AWS와 앤트로픽은 수십만 개의 ‘트레이니움 2’ 기반 인프라로 최신 모델의 훈련에 사용된 인프라 성능의 5배 이상을 구현할 예정이다.
‘트레이니움 2’는 AWS가 인공지능(AI) 학습 워크로드를 위해 직접 설계한 전용 가속기로 지난 ‘AWS 리인벤트 2023’서 발표됐다. 1세대 ‘트레이니움’보다는 최대 4배 빠른 학습 성능과 3배 많은 메모리 용량, 2배 높은 에너지 효율을 제공한다. AWS는 이 ‘트레이니움 2’를 사용한 ‘EC2 Trn2’ 인스턴스가 GPU 기반의 인스턴스와 비교해 40%까지 더 나은 비용 효율을 제공한다고 제시한 바 있다.
‘트레이니움 2’를 사용할 수 있는 ‘EC2 Trn2’ 인스턴스는 단일 인스턴스 기준 16개의 트레이니움 2 칩과 뉴런링크(NeuronLink) 고속 칩간 연결을 사용해 최대 20.8페타플롭스(PFlops) 피크 성능을 제공할 수 있다. AWS는 이 ‘Trn2’ 인스턴스가 현 세대의 그래픽처리장치(GPU) 기반 EC2 인스턴스 대비 30~40% 높은 비용 효율을 제공할 수 있다고 소개했다.
이 ‘Trn2’ 인스턴스가 더 확장된 것이 4개의 Trn2 인스턴스에 해당되는 64개의 트레이니움 2를 긴밀히 연결한 ‘Trn2 울트라서버(UltraServers)’다. 이를 통해 더 큰 규모의 AI 워크로드를 다룰 수 있고 모델의 정확도를 더 빠르게 올릴 수 있다.
AWS와 앤트로픽은 이번 행사에서 ‘프로젝트 레이너(Project Rainier)’라는 이름으로 ‘Trn2 울트라서버’로 구성된 ‘EC2 울트라클러스터’를 구축하고 있다고 발표했다. ‘프로젝트 레이너’는 수십만 개의 ‘트레이니움 2’를 3세대 저지연 페타비트(Petabit)급 EFA(Elastic Fabric Adapter) 네트워크로 연결된다.
이 ‘프로젝트 레이너’의 성능은 앤트로픽이 최신 모델을 훈련하는 데 사용했던 연산 성능의 5배 이상이 될 것으로 언급됐다. 이 프로젝트가 완성되면 현재까지 알려진 세계 최대 규모의 AI 컴퓨팅 클러스터로 앤트로픽의 차세대 모델 개발을 지원할 수 있을 것으로도 기대된다.
이와 함께 앤트로픽은 AWS와의 협업의 일환으로, 클로드(Claude) 거대언어모델(LLM)을 트레이니움 2에서 실행될 수 있도록 최적화하기 시작했다고 발표했다. 이를 통해 앤트로픽은 아마존 베드록(Bedrock)에서 클로드 모델을 사용하는 사용자들에 더 뛰어난 성능과 경험을 제공할 수 있을 것으로 기대했다.
한편, AWS는 차세대 ‘트레이니움 3’에 대한 내용도 발표했다. ‘트레이니움 3’는 AWS의 칩으로는 최초로 3나노미터 급 공정을 사용해 향상된 성능과 밀도, 효율을 선보일 예정이다. AWS는 ‘트레이니움 3’를 사용한 ‘울트라서버’가 기존 트레이니움 2 기반 울트라서버 대비 4배 높은 성능을 제공할 수 있을 것으로 전망했다. 첫 ‘트레이니움 3’ 기반 인스턴스는 2025년 하반기 등장 예정으로 알려졌다.
권용만 기자 yongman.kwon@chosunbiz.com