테크판, 아파치 아이스버그 데이터 레이크 지원 탄력...MS·데이터브릭스는 다른 행보
||2024.10.15
||2024.10.15
[디지털투데이 황치규 기자]오픈소스 기반 테이블 형식 데이터레이크 솔루션인 아파치 아이스버그(Apache Iceberg)를 지원하려는 유력 테크 기업들 행보에 가속도가 붙었다.
최근들어 주요 데이터웨어하우스 및 데이터 분석 플랫폼 업체들이 앞다퉈 아파치 아이스버그와 관련한 기능들을 선보이고 있다.
더레지스터 보도에 따르면 아마존웹서비스(AWS), 클라우데라, 구글, 스노우플레이크가 아파치 아이스버그를 지원하고 나섰다.
이에 따라 오픈소스 표준 테이블 포맷으로 자리매김하기 위한 데이터브릭스가 리눅스 재단 프로젝트로 제공하는 오픈소스 프로젝트인 델타 레이크, 아파치 후디(Apache Hudi) 등과 아파치 아이스버그 간 경쟁이 고조되는 양상이다.
이들 플랫폼은 모두 데이터를 옮기지 않고도 원하는 분석 엔진으로 쿼리(query, 질의)를 통해 데이터 분석을 할 수 있도록 지원한다.
예를 들어 구글 클라우드가 제공하는 데이터웨어하우스(DW) 및 분석 플랫폼인 빅쿼리에서 아파치 아이스버그용 빅쿼리 테이블(BigQuery tables)을 프리뷰로 제공하고 있다. 빅쿼리 테이블과 관련해 구글은 완전 관리형 아파치 아이스버그 호환 스토리에진이라고 설명했다.
구글은 자사 데이터 웨어하우스와 데이터 레이크 기술인 빅레이크를 결합해 레이크하우스 아키텍처를 구축하는 것을 목표로 하고 있다고 더레지스터는 전했다.
빅레이크 테이블들은 현재 읽기만 가능해 빅쿼리 고객들은 외부 쿼리 엔진을 통해 데이터 변형하고, 수작업으로 데이터 관리를 오케스트레이션(orchestrate, 지휘해야 한다. 아파치 아이스버그용 빅쿼리 테이블은 빅쿼리 자체 테이블과 유사한 기능들 및 고객 경험을 제공하면서 아파치 아이스버그 포맷을 사용해 고객들이 소유한 클라우드 스토리지에 데이터를 저장할 수 있도록 지원한다.
이를 기반으로 아파치 아이스버그용 빅쿼리 테이블은 데이터 조작 언어(data manipulation language, DML)인 구글 SQL를 통해 빅쿼리리에서 쓰기도 가능하게 할 수 있다는 설명이다. 빅쿼리 쓰기 API를 통해 아파치 스파크와 같은 오픈소스 엔진도 지원할 수 있다.
레드시프트로 빅쿼리와 클라우드 DW 시장에서 경쟁하는 AWS는 아파치 아이스버그 뿐 아니라 ORC, JSON, CSV를 포함해 오픈 파일 포맷을 지원하는 시큐어 공유 데이터레이크 테이블(secure sharing of data lake tables)을 선보였다. 모두가 아마존 S3 스토리지 서비스에 저장되는 포맷들이다.
경쟁 관계인 클라우데라와 스노우플레이크는 아파치 아이스버그 중심으로 제휴도 맺어 눈길을 끈다.
ㆍ클라우데라, 스노우플레이크와 협력...데이터 레이크하우스 플랫폼 연동
클라우데라와 스노우플레이크는 모두 데이터 분석을 주특기로 하지만 서로 다른 코스를 밟아왔다. 클라우데라는 아파치 하둡 시스템을 기반으로 데이터 레이크를 구축하기 시작했고 스노유플레이크는 스토리지와 컴퓨팅을 분리해 실행하는 방식으로 클라우드 DW 시장을 주도해왔다.
이런 가운데 양사는 2022년 데이터를 옮기지 않고 상호 운용성을 개선하기 위해 아파치 아이스버를 지원했고 서로 협력까지 추진하게 됐다.
최근 클라우데라는 자사 오픈데이터 레이크하우스 상호 운용성을 확장해 스노우플레이크 플랫폼과도 통합한다고 발표했다. 이번 협력으로 양사 공동 고객들은 아파치 아이스버그 REST 카탈로그를 통해 클라우드데라 데이터레이크 하우스에 접근할 수 있다.
클라우데라 측은 이번 협력은 기업들이 데이터 아키텍처를 간소화하고 데이터 파이프라인도 최소화해 데이터 자산에 대한 비용과 보안 리스크를 줄이는데 도움이 될 것이라고 강조했다.
마이크로소프트의 경우 구글, AWS와는 다른 노선을 추구한다. 더레지스터는 마이크로소프트 애저 데이터 부문 부사장인 애런 울락(Arun Ulag)을 인용해 마이크로소프트는 시장 수요에 따라 델타 레이크를 선택했다고 전했다. 마이크로소프트 패브릭 데이터 플랫폼은 기본적으로 아파치 아이스버그와 후디에 대한 일부 지원을 제공하지만, 열 중심 데이터 파일 형식인 델타 레이크와 아파치 파케이(Apache Parquet)을 선호한다고 더레지스터는 덧붙였다.
데이터브릭스는 아이스버그와 델타 레이크 장점을 합쳐 단일 표준을 만드는 비전에 초점을 맞추고 있다. 데이터브릭스는 델타 레이크에 저장된 데이터를 아파치 아이스버그나 아파치 후디처럼 읽을 수 있도록 설계된 유니폼(UniForm) 제품을 통해 통합할 수 있을 것이란 희망을 제시하고 있다고 더레지스터는 전했다.