1초 안에 페타바이트 데이터를 읽는다? Arize ADB 벤치마크 공개

지난 9월, Arize AI는 자사에서 출시한 맞춤형 분석 데이터베이스인 ADB(Arize Database)를 대상으로 벤치마킹 결과를 공식 블로그를 통해 공개했습니다. 이 벤치마킹은 데이터베이스 자체의 내부 성능과 애플리케이션 시스템 수준에서 최종 사용자가 경험하는 실제 성능이라는 두 가지 측면을 모두 다루었습니다.

ADB는 Arize AI가 지난 6월 샌프란시스코에서 개최한 'Arize Observe: 2025'에서 처음 공개한 서비스로, 페타바이트 규모의 대규모 생성형 AI 워크로드를 지원하고, 실시간 데이터 수집 및 초고속 임시 분석을 위해 Arize AX 플랫폼의 핵심에 맞춤 설계된 스테이트리스(Stateless) 분석 데이터베이스입니다.

Arize AI는 이번 벤치마크를 통해 ADB가 애플리케이션의 기반으로서 갖는 성능과 최종 애플리케이션 사용자에게 제공하는 경험을 확인하고 입증하고자 했으며, 다음 영역들을 포함하여 성능을 정량적으로 측정하고 공개했습니다.

데이터셋 업로드 (프로그래밍 방식)
데이터셋 업로드 (UI)
트레이스 업로드 (프로그래밍 방식)
실시간 수집(Ingest)부터 읽기(Read)까지의 시간
대규모 데이터 검색

최종 애플리케이션 테스트는 다음 환경 시나리오에서 진행되었으며, 이와 유사한 조건에서는 동일한 수준의 사용자 경험을 제공할 것으로 예상됩니다:

인터넷 연결 속도: 다운로드 150MB / 업로드 150MB
운영 환경: MAC

데이터셋 업로드 성능

데이터셋 업로드 테스트는 adb가 대규모 배치 데이터를 얼마나 신속하게 처리하고 사용자가 즉시 활용할 수 있도록 준비하는지를 측정합니다.

첨부된 다이어그램은 CSV 또는 데이터프레임이 ADB로 업로드되는 과정을 나타냅니다. 이 테스트는 대용량 파일이 ADB에 얼마나 신속하게 삽입되는지를 보여주며, 파일 업로드에는 대규모 파일을 극도로 빠르게 수집(ingestion)하도록 설계된 ADB의 배치 삽입 데이터 경로(batch insertion datapath)가 활용되었습니다.

트레이스 수집 속도

트레이스 수집 테스트는 개별적인 실시간 이벤트가 발생했을 때, ADB가 이를 처리하여 사용자 인터페이스(UI)에서 얼마나 빨리 확인할 수 있도록 만드는지를 입증합니다.

첨부된 다이어그램에 나타난 트레이스 삽입 경로는 ADB의 실시간 수집 경로를 활용하여, 이벤트 발생 시점부터 사용자 인터페이스에 표시되기까지 1초 미만의 시간(subsecond timing)이 소요되는 성능을 입증했습니다.

풀 텍스트 검색 역량((Full Text Search)

전체 텍스트 검색은 대규모 스팬(span)에 걸쳐 방대한 양의 채팅 텍스트 입력 및 출력 속성을 대상으로 검색을 실행하는 adb의 능력을 테스트합니다.

각각 500만 개 및 1,000만 개 스팬으로 구성된 두 가지 테스트에서, 각 스팬에는 25KB 크기의 채팅 텍스트 문자열이 포함되어 adb에 수집되었습니다. 전체 텍스트 검색 테스트는 이 데이터에 대한 정규 표현식(regexp) 검색 시간을 측정하여 성능을 확인했습니다.

ADB 벤치마크를 통해 확인 할 수 있는 사항

이번 벤치마크 결과는 ADB가 단순한 고성능 데이터베이스를 넘어, 대규모 생성형 AI 워크로드의 고유한 요구사항을 충족시키도록 맞춤 설계된 분석 플랫폼의 핵심임을 입증합니다. 테스트 결과를 통해 확인할 수 있는 주요 인사이트는 다음과 같습니다.

1. 초고속 성능을 통한 실시간 관측 및 즉각적인 대응 체계 구축

ADB의 가장 중요한 강점은 데이터의 '실시간 가시성'입니다.

1초 미만의 지연 시간: 트레이스 삽입 경로에서 이벤트 발생부터 사용자 UI 표시까지 1초 미만(subsecond timing)의 성능을 보인 것은 결정적입니다. 이는 AI 모델에서 문제가 발생하거나 피드백이 들어오는 순간 거의 즉시 상황을 파악하고 디버깅할 수 있음을 의미하며, LLM 서비스의 사용자 경험 저하를 최소화하는 데 필수적인 조건입니다.

2. 대규모, 고밀도 AI 데이터에 최적화된 검색 역량

ADB는 방대하고 복잡한 AI 서비스 데이터를 효과적으로 분석할 수 있도록 설계되었습니다.

대용량 텍스트 검색 능력: 500만~1,000만 스팬이라는 대규모 데이터셋에 각 25KB 크기의 채팅 텍스트가 포함된 상태에서 정규 표현식 검색 시간을 측정했다는 점은, ADB가 LLM의 프롬프트, 응답 등 방대한 텍스트 데이터 분석 및 검색에 특화된 엔진을 갖추고 있음을 보여줍니다. 이는 AI 관측(Observability)에서 근본 원인 분석(RCA)을 수행하는 데 핵심적인 역량입니다.

3. 유연하고 안정적인 대규모 데이터 처리 아키텍처

ADB는 실시간 스트림과 대규모 배치 적재(Backfill)를 안정적으로 분리하여 처리할 수 있는 유연성을 제공합니다.

전문 데이터 경로 분리: 데이터셋 업로드 테스트에 배치 삽입 데이터 경로를 활용한 것은, 대규모 과거 데이터 적재 작업을 실시간 수집 경로와 완전히 분리하여 처리함을 의미합니다. 이를 통해 대용량 데이터가 유입될 때도 실시간 서비스의 안정성과 속도에 영향을 주지 않고 데이터를 확보할 수 있습니다.

4. 개발자와 최종 사용자를 모두 만족시키는 경험 최적화

벤치마크에서 프로그래밍 방식과 UI 방식의 업로드를 모두 테스트한 것은 ADB가 개발자와 비개발자 사용자 모두에게 최적화된 접근성과 사용 편의성을 제공하고자 함을 시사합니다. 전례 없는 속도와 안정성을 통해 모든 사용자가 데이터셋 크기에 관계없이 애플리케이션 UI를 스프레드시트처럼 즉각적으로 사용할 수 있도록 경험을 최적화했습니다.

이러한 정량적인 벤치마크 결과는 ADB가 미션 크리티컬한 AI 워크로드의 고유한 요구사항을 충족시키기 위해 맞춤 설계된 분석 데이터베이스임을 명확히 입증하며, 앞으로 Arize AI 플랫폼 사용자들에게 최고 수준의 성능과 사용자 경험을 지속적으로 제공할 것입니다.