Azure Databricks는 데이터 웨어하우징 및 분석을 위해 빌드된 시스템의 성능을 테스트하는 데 널리 사용되는 벤치마크인 TPC-DS 벤치마크 데이터 세트에 대한 액세스를 제공합니다. 데이터 세트는 기본적으로 모든 Unity 카탈로그 사용 작업 영역에서 두 가지 크기로 사용할 수 있습니다. 이러한 데이터 세트는 실제 소매 및 전자 상거래 비즈니스 시나리오를 시뮬레이션하는 표준화된 벤치마크에서 Azure Databricks 성능을 테스트하는 데 적합합니다. 이 데이터 세트에 대한 자세한 내용은 TPC-DS 벤치마크 설명서를 참조하세요.
포함된 내용
TPC-DS 데이터 세트는 다음 스키마를 samples 사용하여 카탈로그에서 사용할 수 있습니다.
-
tpcds_sf1— 소규모 데이터 세트(약 1GB) -
tpcds_sf1000— 대규모 데이터 세트(약 1TB)
두 데이터 세트는 다음과 같은 특성을 공유합니다.
- 작업 영역의 모든 사용자가 읽기 전용이며 쿼리할 수 있습니다.
- SQL 웨어하우스 및 다목적 클러스터와 호환됩니다.
- 표준화된 벤치마킹에 대한 TPC-DS 사양을 따릅니다.
필수 조건
SQL 웨어하우스 또는 다목적 클러스터에 액세스할 수 있어야 합니다.
데이터 미리 보기
카탈로그 탐색기 UI에서 데이터를 탐색하려면 다음을 수행합니다.
-
을 클릭합니다.사이드바의 카탈로그입니다.
- 검색 창에 tpcds 를 입력합니다. 두 스키마는 모두 카탈로그에
samples있습니다. 보려는 스키마의 이름을 클릭합니다. - 개요 탭에는 스키마의 모든 테이블이 나열됩니다. 테이블 이름을 클릭하여 해당 테이블의 열 및 데이터 형식에 대한 개요를 엽니다.
- 위쪽 탐색을 사용하여 테이블의 샘플 데이터 또는 세부 정보를 볼 수 있습니다.
데이터 쿼리
다음 쿼리는 더 작은 크기 조정 데이터 세트를 tpcds_sf1사용합니다. 더 큰 크기 조정 데이터 세트를 사용하려면 스키마 이름을 .로 tpcds_sf1000바꿉니다. 사이드바에서
SQL 편집 기를 클릭하여 SQL 편집기를 엽니다. 그런 다음, 다음 쿼리를 사용하여 데이터 탐색을 시작합니다.
미리 보기 테이블
SHOW TABLES IN samples.tpcds_sf1;
테이블 탐색
DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;
샘플 조인 및 집계
SELECT
i_category,
d_year,
SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;