데이터센터를 하나의 ‘GPU’처럼 묶는 연결 기술 경쟁 [AI 메모리 시대 ⑤]
||2025.07.29
||2025.07.29
오늘날 인공지능(AI) 시대 경쟁력 확보를 위한 조건으로는 대규모의 ‘그래픽처리장치(GPU) 인프라’를 꼽는다. 엔비디아의 최신 고성능 데이터센터용 GPU는 한 개당 가격이 수천 만원, 서버 한 대 가격은 수억 원에 이르지만, 글로벌 AI 생태계를 이끌고 있는 ‘빅테크’ 기업들은 이런 최신 GPU를 수만 개에서 수십만 개까지 갖추고 있는 것으로 알려졌다. 더 큰 데이터를 쓴 더 큰 모델이 더 좋은 성능을 보이는 ‘AI 스케일링 법칙’ 아래에서 더 많은 GPU는 더 높은 경쟁력과 더 큰 가능성을 제시하는 중요한 요소가 됐다.
하지만 이러한 GPU 인프라를 단지 모아만 둔다고 해서 가치가 생기는 것은 아니고, 이를 어떻게 효과적으로 ‘연결’하느냐도 중요하다. 연결 방법에 따라서는 모든 GPU서버가 따로 움직일 수도 있지만, 거대한 하나의 GPU처럼 동작할 수도 있다. 같은 수의 GPU를 갖췄더라도 어떤 식으로 연결돼 있느냐에 따라 활용 방법과 가치가 크게 달라진다. 그리고 이러한 유연한 연결 기술을 갖췄는지에 따라서도 AI용 GPU 인프라 시장에서 GPU의 가치가 크게 달라졌다.
지금까지 이러한 AI 인프라의 연결 기술에서도 가장 앞선 쪽은 엔비디아였다. 특히 엔비디아의 ‘NV링크(NVLink)’ 기술은 모든 GPU들이 다른 GPU에 직접 연결할 수 있도록 해 시스템을 넘어 랙 단위, 크게는 데이터센터 단위까지 ‘단일 GPU’처럼 움직일 수 있게 했다. 하지만 공개 표준으로 ‘UA링크(UALink)’가 등장하면서 이제 이러한 데이터센터 급 GPU 연결 구성을 엔비디아 GPU가 아니더라도 사용할 수 있게 됐다. 지금까지 AI 인프라의 실질적 표준으로 여겨져 오던 인피니밴드(Infiniband)도 공개 표준 ‘이더넷’ 진영의 도전에 직면했다.
NV링크-UA링크, 데이터센터 전체를 단일 GPU처럼 묶는다
엔비디아의 NV링크(NVLink) 기술은 2014년 처음 선보였다. 지금의 기술은 5세대다. 이 NV링크 연결은 시스템의 CPU와 연결하는 PCIe(PCI Express)와는 별개로 근거리에 배치된 GPU간 직접 연결을 위해 만들어졌다. NV링크는 세대가 올라갈 때마다 레인간 동작 속도는 물론 다중 레인 구성 폭을 넓혀 왔고, ‘호퍼(Hopper)’ 시대에 사용된 NV링크 4.0의 대역폭은 900GB/s, ‘블랙웰’ 세대에 사용되는 NV링크 5.0의 대역폭은 1800GB/s에 이른다.
엔비디아의 데이터센터용 GPU들이 AI 워크로드에서 뛰어난 역량을 발휘한다는 평을 듣는 데는 GPU 아키텍처와 메모리 구성의 특징, 소프트웨어 지원 등의 역할도 있지만 ‘NV링크’의 역할 또한 큰 것으로 평가받는다. 현재 엔비디아는 일반 소비자용 GPU에서 멀티 GPU 구성과 NV링크에 대한 지원을 모두 제거한 상태다. AI 시대 GPU 수급난이 심할 때도 일반 소비자용 GPU가 사용되는 일이 예상보다 적었던 데는, 일반 소비자용 GPU에 없는 NV링크 기술이 GPU 여러 대를 묶는 상황에 큰 제약을 가져왔기 때문으로도 해석된다.
NV링크의 핵심은 ‘GPU간 직접 연결’과 함께, ‘여러 GPU간 메모리 공유’를 가능하게 한다는 것이다. 이를 사용하면 여러 대의 GPU를 연결해 하나의 거대한 GPU처럼 사용할 수도 있다. 젠슨 황 엔비디아 CEO는 이 기술을 “랙 단위를 넘어 데이터센터 전체를 하나의 GPU처럼 쓸 수 있다”고 소개한 바 있다. 물론 GPU 패키징의 경계를 넘어가면 분명 한계가 있지만, 현존하는 기술 중에서는 가장 유연하고 강력한 기술로 평가받는다. 경쟁 업체들에는 없는 이 기술의 유연성이 엔비디아의 GPU를 선택하는 중요한 이유 중 하나가 됐다.
이 NV링크는 시스템 디자인에 따라 다른 방법으로 활용되는 모습이다. 가장 보편적인 ‘GPU 서버’ 디자인인 ‘DGX/HGX’에서 NV링크는 시스템 내의 최대 8개 GPU를 연결하는 데 사용된다. ‘호퍼’ 세대에서 4GPU 시스템은 GPU간 NV링크 직접 연결을, 8GPU 시스템은 중간에 브릿지를 하나 넣은 구성을 썼다. 이 때, 직접 연결된 GPU간에는 메모리를 서로 공유해 대형 모델을 구동할 수 있었고, 각 GPU들은 PCIe로 CPU와 연결됐다. 덕분에 ‘GPU 풀’을 벗어나면 데이터 전송과 처리 성능이 상대적으로 떨어지기도 했다.
NV링크 연결 구성의 진가는 ‘GB200 NVL72’등 ‘슈퍼칩’ 구성에서 나온다. GB200의 경우 슈퍼칩 모듈에는 두 개의 GPU와 한 개의 CPU가 NV링크로 연결돼 있고, 모듈 외부로 나가는 연결도 GPU별로 하나씩 있다. 이 모듈 외부로의 연결들이 NVL72 랙 디자인에서 백플레인을 통해 외장 NV링크 스위치로 연결, 관리된다. 이러한 연결을 통해 시스템을 넘어 랙 단위, 크게는 데이터센터 단위까지 모든 GPU가 NV링크로 연결된 구성이 가능해진다. 한편, ‘NVL72’ 시스템의 가격이 높은 데는 이러한 고속 연결 기술의 존재 또한 한 몫 한다.
이 ‘NV링크’의 존재는 경쟁 제품들 대비 엔비디아의 GPU 제품을 차별화하는 중요한 특징 중 하나였다. 현재까지 AMD는 ‘인피니티 패브릭’으로, 인텔은 고속 이더넷 기술 기반으로 시스템 내 8개 GPU 정도를 빠르게 연결하는 기술은 가지고 있었지만, 이 연결을 메모리 일관성을 유지하면서 랙 스케일까지 확장하는 기술은 없었다. 점점 커져 가는 AI 모델을 다루기에, 같은 수의 GPU와 동급의 메모리 용량이 있더라도 AMD와 인텔의 GPU는 작업 분할 등에서 좀 더 까다로운 면이 존재했다.
하지만 이러한 상황도 곧 바뀔 것으로 보인다. 엔비디아의 ‘NV링크’와 동등한 수준의 역할을 할 수 있는 ‘UA링크(UAlink)’ 표준이 지난 4월 공식적으로 등장했기 때문이다. UA링크 1.0 표준은 현재의 ‘NV링크 퓨전’ 기술과 동등한 수준의 전송 성능에 NV링크 퓨전의 최대 576개 GPU 구성보다 더 많은 최대 1024개 GPU 구성 확장성을 제공한다. 또한 ‘NV링크’ 기술이 엔비디아의 제품만 지원하는 것에 비해 UA링크는 표준을 준수하는 다양한 업체의 제품들과 함께 연결할 수 있다는 데서 주목받는다.
AMD는 UA링크 기술의 활용을 가장 먼저 공식화했다. AMD는 지난 6월 ‘어드밴싱 AI 2025’ 행사에서 차세대 GPU ‘MI400’을 기반으로 한 AI 랙 솔루션 ‘헬리오스(Helios)’에 UA링크 기술을 활용한다고 공식 발표했다. 당시 포레스트 노로드 AMD 데이터센터 솔루션 비즈니스 그룹 수석부사장은 “UA링크 기술을 활용하면 랙 단위 연결을 넘어 데이터센터 전체의 GPU와 메모리를 연결해 하나의 GPU처럼 활용할 수 있다”고 소개했다. 이는 엔비디아가 ‘NV링크’를 소개할 때와 같은 표현이다.
이더넷과 인피니밴드 넘어설 준비 갖춘 ‘울트라 이더넷’
오늘날 네트워크라 하면 보통 ‘이더넷(Ethernet)’을 생각하지만 실제 데이터센터 네트워크 시장은 목적에 따라 몇 가지 기술로 나뉘어 있었던 상황이다. 가장 범용적인 데이터 전송에는 구리선 기반의 이더넷이 사용됐지만 저지연 고성능 네트워크 연결에는 구리선이 아닌 광 연결을, 이더넷이 아닌 인피니밴드(Infiniband) 같은 연결 기술이 사용돼 왔다. 물론 ‘광 연결 기반의 이더넷’ 같은 조합도 가능했지만, 보통은 광 연결에서는 인피니밴드를 주로 고민했다.
현재 엔비디아의 GPU 기반 AI 인프라에서 가장 많이 사용되고 있는 네트워크 기술은 ‘인피니밴드’다. 지금까지 슈퍼컴퓨터 등 일부 환경에서만 쓰던 인피니밴드가 AI 인프라에서 많이 사용되는 이유는 크게 두 가지다. 첫 번째는 전송 속도와 지연 시간 등 ‘성능’으로 엔비디아가 DGX 시스템 기반 인프라에 요구하는 성능들을 채우기 위한 가장 검증된 선택이라는 점이다. 두 번째는 ‘레퍼런스’인데, 엔비디아는 지금까지 DGX 레퍼런스 디자인에 ‘인피니밴드’를 제안한 만큼 고객들이 다른 선택을 하는 데 부담을 느끼기도 했다.
문제는 이 ‘인피니밴드’가 실질적으로 ‘독점 기술’이 됐다는 점이다. 1999년 인피니밴드가 처음 나올때만 해도 다양한 기업들이 참여하던 ‘컨소시엄’이었지만 지금은 마지막으로 남았던 ‘멜라녹스(Mellanox)’가 엔비디아에 인수되면서 엔비디아 자체 기술 같은 위치가 된 상황이다. 성능 면에서도 약 10년 전만 해도 이더넷 대비 한 세대 위의 성능을 보였지만, 지금은 그 격차도 거의 없어졌다. 이에 업계에서는 좀 더 다루는데 익숙하고 비용적으로도 장점이 있는 이더넷 기술을 활용하기 위한 시도도 늘어나는 모습이다.
이더넷 기술은 지금까지 데이터센터 내외부에서 다양한 기술들을 통합해 왔다. 전용 연결을 사용하던 SAN(Storage Area Network) 환경을 대체할 수 있는 iSCSI 기술 등이 대표적이다. 그리고 이더넷 기술이라 하면 흔히 구리선 기반 연결을 생각하지만, 이더넷 기술 자체는 케이블 방식에 크게 개의치 않고, 수백 기가비트 급의 고속 이더넷 연결에서는 구리선보다 광 연결을 사용해 안정성을 추구할 수도 있다. 또한 전송 과정에서 거쳐야 하는 여러 계층간 이동을 크게 줄여 효율을 높인 RDMA(Remote Direct Memory Access)’도 적용돼 효율을 높였다.
최근에는 기존의 이더넷을 뛰어넘는 ‘울트라 이더넷(Ultra Ethernet)’ 방식이 제안됐다. 인텔과 AMD, 마이크로소프트와 메타, HPE, 시스코와 브로드컴 등 업계의 주요 업체들이 모두 참가한 이 기준은 AI와 HPC 환경을 위한 최적화된 네트워크 기술을 목표로 한다. 구체적으로는 경로 최적화나 지연시간 최소화를 위한 특정 트래픽 우선처리 기술, 네트워크 기술 수준에서의 좀 더 유연한 소프트웨어 정의성 등을 갖춘 점이 눈에 띈다. 또한 다양한 업체들에서 이를 지원하는 솔루션들을 선보일 예정으로, 제품 선택의 폭이 넓은 것도 장점이다.
한편, 엔비디아 또한 이 ‘울트라 이더넷’ 컨소시엄에 참여하고 있고, 최신 DGX 시스템 디자인에서는 인피니밴드 기반 디자인 뿐만 아니라 이더넷 기반 디자인도 함께 선보인 것으로 알려졌다. 현재 엔비디아는 네트워킹 제품에 인피니밴드 뿐만 아니라 이더넷 기술 기반 제품도 갖추고 있다. 또한 인텔은 지난 수십년간 데이터센터 이더넷 네트워킹에서 주도적인 위치에 있었고, AMD도 지난 2022년 ‘펜산도(Pensando)’를 인수해 데이터센터급 네트워킹 기술 기반을 갖췄다.
구리선 물리적 한계 극복할 ‘실리콘 포토닉스’
오늘날 데이터를 빠르게, 멀리 전송하는 데 있어 당면하게 되는 과제 중 하나는 물리적인 ‘선재’다. 일반적인 구리선 등 금속 선재에는 저항이 있고, 재료의 불순물 함도와 길이에 따라 상황은 악화된다. 이에 기존 Cat5e 급 네트워크 케이블을 쓸 때는 1기가비트 급 속도로 100미터까지 쓸 수 있지만 10기가비트를 쓸 때는 40미터 정도로 거리가 크게 줄어든다. 또한 디스플레이 연결을 위한 HDMI 케이블에서는 4K급 이상의 디스플레이를 연결할 때 케이블의 길이와 품질에 대단히 민감한 상황이 나오기도 할 정도다.
이러한 상황은 시스템 내, 외부에서 초고속 연결을 구현할 때 더 까다로운 상황을 만나게 된다. 최신 플랫폼에서 프로세서와 고속 메모리, PCIe 인터페이스 등을 배치할 때 가장 까다로운 부분 중 하나로는 실질적인 거리 제한에 따른 위치 잡기가 꼽힐 정도다. 특히 PCIe 5.0의 등장에서 높은 전송 속도와 신뢰성을 확보하기 위한 설계는 메인보드와 시스템 전체의 가격 상승에도 상당 부분 영향을 끼친 것으로도 알려졌다. 그리고 전통적인 구리선을 사용하는 설계의 난이도는 앞으로도 더 높아질 것으로 보인다.
‘실리콘 포토닉스(Silicon Photonics)’ 기술은 이러한 상황에서 구리 배선의 길이를 최소화하고 안정적인 광 기반 연결을 확장할 수 있을 기술로 꼽힌다. 지금까지는 광 전송을 위해서는 실리콘 기반에서 처리된 데이터들이 구리선을 타고 전기 신호를 광 신호로 바꿀 ‘트랜시버’로 와서 광 기반 신호로 바뀌어 나갔다. 이 과정에서 광 연결을 쓰는 데는 트랜시버의 존재 자체가 부담으로 다가오는데, 외부에 마련된 트랜시버의 크기도 문제지만 트랜시버까지의 복잡한 배선도 문제가 된다.
실리콘 포토닉스 기술은 이 ‘트랜시버’를 실리콘 단위에서 구현해 칩에 통합할 수 있게 한다. 이를 통해 구리 배선 없이 실리콘 내부 혹은 칩 패키징 수준에서 전기 신호를 광 신호로 바꿔 출력할 수 있어 패키지 수준에서 보자면 ‘칩에서 광 신호가 나오는’ 수준까지 통합할 수 있다. 칩과 광 신호를 직접 이으면서 칩 주위의 배선에서 디자인 유연성이 높아질 수도 있겠다. UA링크나 PCIe 등의 고속 연결을 광연결 기반으로 확장할 때도 실리콘에서 바로 연결될 수 있어 유리하다.
이미 이러한 기술도 바로 쓸 수 있는 시대까지 왔다. 대표적으로 인텔은 십수년간 실리콘 포토닉스 기술을 연구했고, 지난 2024년 이를 기반으로 CPU와 4Tbps급 OCI(Optical Compute Interconnect)를 결합한 칩렛 구조의 콘셉트 제품을 선보인 바 있다. TSMC도 상용화 수준까지 가능한 기술을 확보한 상태로, 엔비디아는 지난 4월 실리콘 포토닉스를 엔비디아 퀀텀, 스펙트럼 스위치 칩에 직접 통합한 구성을 발표했다. 당시 엔비디아는 실리콘 포토닉스 기반 스위치가 기존 트랜시버 대비 최대 3.5배 낮은 전력 소비량, 더 높은 신뢰성과 신호 무결성, 1.3배 빠른 구축 등의 장점이 있다고 소개한 바 있다.
권용만 기자
yongman.kwon@chosunbiz.com
고객님만을 위한 맞춤 차량