다음을 통해 공유


TPC-DS 샘플 데이터 세트를 사용하여 시스템 성능 평가

Azure Databricks는 데이터 웨어하우징 및 분석을 위해 빌드된 시스템의 성능을 테스트하는 데 널리 사용되는 벤치마크인 TPC-DS 벤치마크 데이터 세트에 대한 액세스를 제공합니다. 데이터 세트는 기본적으로 모든 Unity 카탈로그 사용 작업 영역에서 두 가지 크기로 사용할 수 있습니다. 이러한 데이터 세트는 실제 소매 및 전자 상거래 비즈니스 시나리오를 시뮬레이션하는 표준화된 벤치마크에서 Azure Databricks 성능을 테스트하는 데 적합합니다. 이 데이터 세트에 대한 자세한 내용은 TPC-DS 벤치마크 설명서를 참조하세요.

포함된 내용

TPC-DS 데이터 세트는 다음 스키마를 samples 사용하여 카탈로그에서 사용할 수 있습니다.

  • tpcds_sf1 — 소규모 데이터 세트(약 1GB)
  • tpcds_sf1000 — 대규모 데이터 세트(약 1TB)

두 데이터 세트는 다음과 같은 특성을 공유합니다.

  • 작업 영역의 모든 사용자가 읽기 전용이며 쿼리할 수 있습니다.
  • SQL 웨어하우스 및 다목적 클러스터와 호환됩니다.
  • 표준화된 벤치마킹에 대한 TPC-DS 사양을 따릅니다.

필수 조건

SQL 웨어하우스 또는 다목적 클러스터에 액세스할 수 있어야 합니다.

데이터 미리 보기

카탈로그 탐색기 UI에서 데이터를 탐색하려면 다음을 수행합니다.

  1. 데이터 아이콘 을 클릭합니다.사이드바의 카탈로그입니다.
  2. 검색 창에 tpcds 를 입력합니다. 두 스키마는 모두 카탈로그에 samples 있습니다. 보려는 스키마의 이름을 클릭합니다.
  3. 개요 탭에는 스키마의 모든 테이블이 나열됩니다. 테이블 이름을 클릭하여 해당 테이블의 열 및 데이터 형식에 대한 개요를 엽니다.
  4. 위쪽 탐색을 사용하여 테이블의 샘플 데이터 또는 세부 정보를 볼 수 있습니다.

데이터 쿼리

다음 쿼리는 더 작은 크기 조정 데이터 세트를 tpcds_sf1사용합니다. 더 큰 크기 조정 데이터 세트를 사용하려면 스키마 이름을 .로 tpcds_sf1000바꿉니다. 사이드바에서 SQL 편집기 아이콘SQL 편집 기를 클릭하여 SQL 편집기를 엽니다. 그런 다음, 다음 쿼리를 사용하여 데이터 탐색을 시작합니다.

미리 보기 테이블

SHOW TABLES IN samples.tpcds_sf1;

테이블 탐색

DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;

샘플 조인 및 집계

SELECT
  i_category,
  d_year,
  SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;

모범 사례

  • 쿼리 기록쿼리 프로필을 사용하여 성능 특성을 이해하고 최적화 기회를 식별합니다.
  • 초기 테스트를 위해 더 작은 tpcds_sf1 데이터 세트로 시작한 다음 포괄적인 성능 평가를 위해 확장합니다 tpcds_sf1000 .
  • 다양한 SQL 웨어하우스 크기에 대한 쿼리 성능을 비교하여 워크로드에 대한 최적의 구성을 결정합니다.
  • 이러한 표준화된 데이터 세트를 사용하여 성능 기준을 설정하고 시간에 따른 개선 사항을 추적합니다.