빅테크 주도 GPU 슈퍼 클러스터 구축 열기 확산...AI 성능 향상 계속될까?
||2024.11.25
||2024.11.25
[디지털투데이 황치규 기자]AI 인프라 레이스가 고조되면서 엔비디아 GPU를 수만장, 수십만장 연갈하는 슈퍼 클러스터가 빅테크 기업들 사이에서 격전지로 부상했다.
수십억달러를 투입해 슈퍼 클라우드를 구축하려는 관련 업계 행보가 급물살을 타고 있다.
월스트리트저널(WSJ) 최근 보도에 따르면 일론 머스크가 이끄는 생성형 AI 모델 개발 스타트업 xAI는 엔비디아 호퍼 AI GPU 칩 10만장을 투입한 슈퍼 컴퓨터 콜로서스(Colossus)를 구축했고 메타도 AI 모델 학습을 위해 역대급 규모로 많은 AI 칩들을 하나로 합친 인프라를 활용하고 있다.
1년 전만 헤도 GPU 수만장을 연결한 클러스터면 대단히 크다를 평가를 받았지만 최근 분위기는 다르다.
UBS애널리스트들에 따르면 오픈AI가 2022년말 내놓은 챗GPT 학습에는 엔비디아 GPU 1만장 정도가 투입됐을 것으로 추정되지만 요즘 빅테크 기업들은 10만장, 20만장 규모 슈퍼 클러스터를 겨냥하는 모습이다.
일론 머스크는 지난달 소셜 미디어 X(트위터)에 10만장 규모 콜로서스 슈퍼 클러스터는 조만간 단일 빌딩에서 20만장 규모로 확대될 것이라고 예고했다. 다음 단계는 내년 여름 엔비디아 최신 칩 30만장으로 이뤄진 클러스터를 구축하는 것이라고 했다.
xAI와 메타 외에 오픈AI와 마이크로소프트도 AI를 위해 새로운 컴퓨팅 시설을 구축하고 있고 구글도 자사 AI 전략을 이끌 거대 데이터센터를 구축하고 있다고 WSJ은 전했다.
오라클도 9월 10만 개 이상 엔비디아 최신 GPU를 사용해 차세대 AI 모델을 훈련하고 배포할 수 있도록 지원하는 제타스케일 OCI 슈퍼클러스터를 발표했다.
회사 측에 따르면 OCI 슈퍼클러스터를 통해 고객은 다양한 엔비디아 GPU 중에서 필요에 따라 선택할 수 있으며, 온프레미스, 퍼블릭 클라우드, 소버린 클라우드(sovereign cloud) 등 어디에나 배포할 수 있다.
엔비디아 GPU를 가급적 많이 한곳에 설치하고 초고속 네트워킹 케이블로 연결하려는 업계 행보는 여전히 컴퓨팅 파워가 AI 경쟁력에서 중대 변수로 통하고 있음을 보여주는 장면이다.
AI 모델 학습에 투입하는 컴퓨팅 파워를 늘릴 수록 AI 성능도 그에 비례에 좋아진다는 이른바 확장의 법칙은 그동안 AI 생태계에서 중량감 있는 전술로 통했다. 하지만 최근에는 확장의 법칙이 앞으로도 계속 통할지는 미지수라는 시선도 꽤 엿보인다.
오픈AI, 구글 등 거대 언어 모델(LLM) 개발 회사들이 지난해 수준으로 AI 모델 성능을 끌어올리지 못하면서 이를 메우기 위해 다른 방법들에 초점을 맞추고 있다는 외신 보도들도 나오고 있다.
ㆍ오픈AI 이어 구글도 LLM 성능 개선 둔화 딜레마 직면...전략 수정
그럼에도 빅테크 행보를 보면 컴퓨팅 파워 중심 AI 레이스는 최소한 내년까지는 이어질 것으로 전망된다. 빅테크 기업들은 내년에도 AI 인프라 투자에 대한 공격 모드를 계속 이어갈 모양새다.
ㆍ빅테크, AI 투자 일부 우려에도 "내년에도 늘었으면 늘었지 줄진 않을 것"
AI 인프라 투자 열기에서 최대 수혜자로 꼽히는 엔비디아는 최근 실적 발표 후 컨퍼런스콜에서 "AI 모델들이 대규모 컴퓨팅 인프라를 통해 성능을 개선할 여전히 많이 있다"면서 "곧 내놓을 블랙웰 AI 칩은 현재 GPU 버전들보다 성능이 몇배 이상"이라고 강조했다.