“기본기 향상·신기술 추가” 인텔 아크 B580 리미티드 에디션 그래픽카드 ①기능편 [리뷰]
||2024.12.13
||2024.12.13
전 세계 PC 그래픽 시장에서 가장 큰 점유율을 가진 제조사는 어디일까. 많은 사람들이 고성능 게이밍 그래픽카드를 선보이는 엔비디아라 생각할 수 있겠지만 시장 전체를 보면 의외로 정답은 ‘인텔’이다. 하지만 인텔의 그래픽처리장치(GPU)시장 점유율의 대부분은 인텔 프로세서에 기본 탑재된 프로세서 내장 그래픽이고 게이밍용 고성능 그래픽카드 시장으로 범위를 좁히면 엔비디아의 독주 속에 인텔의 점유율은 아주 미미한 상황이다.
인텔은 2022년 게이밍용 고성능 그래픽카드 시장에 다시금 도전장을 내밀며 ‘아크 A 시리즈’ 제품군을 선보였던 바 있다. 이 중 상위 라인업인 ‘아크 A700’ 시리즈는 당시의 경쟁 제품들과 비교해 나름대로의 기술적 강점과 매력이 있었지만 하드웨어와 소프트웨어 양 쪽에서 호환성 문제를 꽤 오랫동안 겪어야 했다. 그리고 출시 이후 인텔의 ‘가속 컴퓨팅 시스템 및 그래픽 그룹(AXG)’의 해체 등으로 차세대 제품 로드맵에 대한 잠재적인 불안감도 있었다.
인텔의 ‘아크 B580’ GPU와 그래픽카드의 등장은 여러 가지 면에서 반가운 일이다. 차세대 ‘Xe2’ 아키텍처를 기반으로 하는 아크 B 시리즈는 이전 세대 대비 실제 체감 성능과 효율이 크게 오른 점이 돋보인다. 새로운 세대에서 가장 처음 선보인 제품은 전체 제품군 중 중간 쯤의 위치지만 이전 세대 최상위 모델의 성능을 뛰어넘었다. 시장의 틈새를 파고드는 공격적인 가격 정책도 인상적이다. 무엇보다 인텔이 이 시장을 ‘포기하지 않았다’는 메시지가 크게 느껴지고, 향후 제품군 확장 또한 기대된다.
인텔은 초대 ‘Xe’ 아키텍처에서 좀 더 이론적으로 이상적인 면과 함께 프로세서 내장형 그래픽부터 데이터센터용 AI 가속기까지 모든 세그먼트로 이어지는 ‘확장성’ 측면의 구현에 집중한 바 있다. 코드명 ‘배틀메이지(Battlemage)’로 알려진 인텔의 차세대 그래픽 아키텍처 ‘Xe2’의 지향점으로는 기존 Xe를 기반으로 해 현실적인 ‘효율 향상’이 꼽힌다. 특히 소프트웨어와 하드웨어 양 쪽에서 하드웨어의 잠재력을 극대화하는 ‘활용률’이 강조된다.
Xe2 아키텍처의 핵심이 되는 2세대 Xe 코어는 이전 세대와 비슷하게 8개의 512비트 벡터 엔진, 8개의 2048비트 XMX(Xe Matrix Extensions) 엔진으로 구성된다. 하나의 렌더 슬라이스에는 4개의 Xe 코어와 4개의 레이 트레이싱 유닛, 4개의 샘플러, 2개의 픽셀 백엔드, 지오메트리와 래스터라이저, HiZ(hierarchical depth) 유닛이 갖춰져 있다.
2세대 Xe 코어의 기본 틀은 이전 세대와 비슷하지만 SIMD16의 네이티브 지원이 추가되면서 실제 사용 환경에서의 효율이 더 높아졌다. Xe2의 벡터 엔진은 내부적으로도 각 연산 유닛들이 두 개로 쪼개져 있는 것이 아니라 하나로 합쳐진 형태로 좀 더 단순화됐다. 한 사이클에 정수와 부동소수점, XMX 유닛을 모두 활용할 수 있게 됐다.
Xe2 아키텍처에 탑재된 ‘2세대 레이트레이싱 유닛’은 이전 세대보다 구성이 대폭 확장됐다. 구체적으로는 트래버설 파이프라인(Traversal Pipelines)은 이전 세대 대비 1.5배, 사이클당 레이-트라이앵글 인터섹션(Ray-triangle intersections)은 이전 세대 대비 두 배 늘었다. BVH(Bounding Volume Hierarchies) 캐시도 이전 세대보다 두 배 늘었다. 이에 따라 레이 트레이싱 성능도 이전 세대 대비 큰 폭의 성능 향상을 기대할 수 있게 됐다.
이전 세대부터 탑재됐던 XMX 유닛은 행렬 연산에 최적화됐고 최근 주목받는 AI 연산 성능에 큰 영향을 준다. Xe2에 탑재된 XMX 유닛은 INT2부터 TF32까지 AI를 위한 다양한 데이터 형식을 지원한다. FP16 형식에서는 클럭당 2048회 연산을, INT8 형식에서는 4096회 연산을 할 수 있어 전통적인 MAC(Multiply-Accumulate) 대비 16배까지 높은 성능을 기대할 수 있다. 이 기술은 주로 그래픽카드로 가속하는 LLM이나 이미지 생성 등의 AI 기능이나 게이밍을 위한 업스케일링 기술인 XeSS(Xe Super Sampling) 기술에서 적극적으로 활용된다.
Xe2 아키텍처는 이 외에도 여러 가지 성능 향상 요인들이 적용됐다. 프론트엔드에서는 비직접 실행의 네이티브 지원이 제공된다. 버텍스 페치(Vertex Fetch) 처리량이나 메시 쉐이딩(Mesh Shading) 성능은 3배 높아졌고 픽셀 백엔드에서는 블렌딩 처리량이 2배까지 늘어났다. 이러한 여러 가지 변경사항들이 적용돼 종합적으로는 이전 세대 대비 Xe 코어당 성능은 70%까지, 전력 효율은 50%까지 높아지는 성과를 거뒀다. 특히 몇몇 기능들에서는 이전 세대 대비 10배 넘는 성능 향상을 달성한 부분들이 눈에 띈다.
아크 B 시리즈 GPU에 탑재되는 미디어 엔진은 ‘듀얼 MFX’ 디자인을 갖췄다. H.265, VP9, AV1 등 주요 형식들을 8K 10비트 HDR 120프레임 수준까지 하드웨어로 처리할 수 있다. 전문 영상 장비를 위한 XAVC-H 포맷의 하드웨어 가속 처리를 지원해 영상 작업 환경에서의 경쟁력을 높인 점도 눈여겨 볼 부분이다. AV1에서도 ‘스크린 콘텐츠 코딩’ 기능을 지원해 스크린 공유 등의 텍스트 콘텐츠 위주 영상의 품질을 높였다.
디스플레이 출력 지원에서는 3개의 디스플레이포트 2.1과 1개의 HDMI 2.1a 출력을 지원해 최대 8K 120Hz HDR 디스플레이 혹은 4개의 4K 120Hz HDR 디스플레이를 연결할 수 있다. 인텔의 레퍼런스 설계를 반영한 ‘리미티드 에디션’에서는 HDMI 2.1에서 8K 120Hz나 4K 480Hz 출력을 지원하고 디스플레이포트 2.1에서는 포트에 따라 8K 165Hz와 4K 240Hz 혹은 360Hz 출력을 지원한다.
인텔은 이번 ‘Xe2’ 세대에도 이 아키텍처를 다양한 세그먼트에 걸쳐 적용한다는 계획이다. ‘Xe2’ 아키텍처 기반의 GPU가 가장 먼저 도입된 제품은 프리미엄급 씬앤라이트 노트북을 위한 ‘코어 울트라 200V 시리즈’ 프로세서로 여기에 사용된 그래픽은 전력 효율에 특화된 ‘Xe2-LPG’로 불린다. 그리고 ‘아크 B 시리즈’ 외장 그래픽은 ‘Xe2-HPG’로 이보다 좀 더 크기를 키우고 데스크톱 PC와 게이밍 노트북을 위해 성능과 전력 소비량의 한계를 더 높였다.
인텔의 ‘아크 B 시리즈’ 중 가장 먼저 선보인 제품은 ‘B580’과 ‘B570’으로, 가장 많은 소비자들이 사용하는 250~300달러 수준의 ‘메인스트림’ 급 제품이다. 현재 이 시장에서의 직접적인 경쟁 제품은 엔비디아의 ‘지포스 RTX 4060’과 AMD의 ‘라데온 RX 7600’이 꼽힌다. 이들 제품과 비교하면 아크 B580은 전반적으로 비슷한 수준의 사양에서 좀 더 여유로운 메모리 구성과 좀 더 저렴한 가격대를 내세우는 점이 눈에 띈다.
인텔은 메인스트림 급 ‘B580’과 ‘B570’ 모델에 ‘BMG-G21’ 칩을 투입했다. 이 칩은 최대 5개의 렌더 슬라이스와 1개의 미디어 엔진을 갖췄다. TSMC의 N5 공정으로 196억개 트랜지스터를 집적했고 다이 크기는 272mm2로 체급에 비해서는 다소 크게 느껴지는 구성이다. 메모리 구성은 최대 192비트의 19Gbps GDDR6를 사용해 최대 456GB/s의 대역폭을 제공하고 모듈당 2GB 메모리 6개를 사용해 12GB 용량을 구성했다. 시스템과는 PCIe 4.0 x8로 연결된다.
이전 세대의 ‘아크 A580’과 비교하면 비교하면 공정 자체는 TSMC의 N6에서 N5로 바뀌었고 다이 사이즈도 기존의 406mm2 보다는 제법 줄었다. 이전 세대와의 다른 점은 이전의 ‘A580’은 상위 제품군과 칩을 공유했지만 이번 ‘B580’은 ‘BMG-G21’의 풀 칩 구성이다. 향후 ‘아크 B700’ 시리즈는 이보다 더 큰 구성의 새 칩으로 등장할 것으로 보인다.
구성 측면에서 Xe 코어 수는 전 세대의 24개에서 20개로 줄었고 메모리 구성도 256비트 버스에서 192비트 버스로 줄었다. 하지만 아키텍처 수준에서 Xe 코어당 성능이 70%까지 높아졌고 동작 속도도 이전 세대보다 50% 이상 높아진 만큼 ‘B580’이 이전 세대의 ‘A750’은 물론 ‘A770’까지도 넘어설 수 있을 것으로 어렵잖게 짐작할 수 있다. 이전 세대 A580이나 A750의 8GB 메모리보다 4GB 많은 12GB 메모리 제공 또한 장점이다.
아크 B 시리즈와 함께 등장한 XeSS2 기술 또한 주목할 만한 부분이다. 기존 XeSS 슈퍼샘플링 기술은 인텔의 그래픽카드 뿐만 아니라 타사의 그래픽카드에서도 사용할 수 있는 기술이었고 품질 또한 제법 괜찮은 편이었다. XeSS2 기술에는 기존의 XeSS 슈퍼샘플링 기술과 함께 프레임 수를 늘리는 ‘프레임 생성’ 기술, 반응성을 높이는 ‘저지연’ 기술이 추가된 것이 눈에 띈다.
가장 주목받는 기술은 프레임 생성 기술인 ‘XeSS-FG(Frame Generation)’이다. 이 기술은 Xe 계열 아키텍처의 XMX 유닛을 사용해 렌더링된 프레임 사이에 AI로 프레임을 만들어 넣는 기술이다. 기본적으로는 게임 내에 통합되는 형태로 제공되는데 이 기술이 적용된 ‘F1 24’에서는 XeSS를 사용하지 않는 경우보다 XeSS 모드에 따라 최대 3.9배의 성능 차이를 만들어낼 수도 있다. 이 기술은 Xe2 기반 ‘아크 B 시리즈’ 뿐만 아니라 XMX 유닛을 탑재한 ‘아크 A 시리즈’와 ‘코어 울트라 200V 시리즈’ 내장 그래픽에서도 사용할 수 있다.
게임 화면 렌더링 중 사용자의 입력에 따라 렌더링 순서를 조정해 이를 빨리 반영하는 저지연 기술인 ‘XeLL(Xe Low Latency)’은 기술 사용 여부에 따라 지연 시간을 45%까지 줄일 수 있다. 또한 XeSS-SR 기술과 FG 등을 함께 사용하면 훨씬 높은 프레임 수와 뛰어난 반응성을 모두 얻을 수 있다. 이 기술은 게임 내 통합이 아니더라도 제한적이나마 드라이버 수준에서 기술을 적용해 효과를 볼 수 있고 1세대 코어 울트라 등 ‘Xe-LPG’ 계열 프로세서 내장 그래픽까지 지원된다.
소프트웨어 지원 측면에서는 단일 드라이버 패키지로 Xe, Xe2 아키텍처 기반 제품을 지원하지만 내부적으로 기존 1세대 Xe 아키텍처 기반 제품과 Xe2 아키텍처 기반 제품이 분리돼 있다. 하지만 초대 아크 A 시리즈 그래픽카드의 등장 초기와 비교하면 소프트웨어 지원 수준 측면은 충분히 안정적인 수준까지 올라왔다. 이는 이전 세대에서부터 쌓아 온 경험과 함께 이전 세대 대비 프로세서 내장 그래픽과 외장 그래픽의 아키텍처 간 차이가 적기 때문이기도 하다.
권용만 기자
yongman.kwon@chosunbiz.com