Azure Databricks 可讓您存取 TPC-DS 基準資料集,這是廣泛使用的基準,可用來測試針對資料倉儲和分析所建置的系統效能。 根據預設,資料集在每個已啟用 Unity 目錄的工作區中都有兩種大小。 這些資料集非常適合在模擬實際零售和電子商務商務案例的標準化基準上測試 Azure Databricks 效能。 若要進一步瞭解此資料集,請參閱 TPC-DS 基準 檔案。
包含項目
TPC-DS 資料集可在目錄中使用 samples 下列結構描述:
-
tpcds_sf1— 小規模資料集 (約 1 GB) -
tpcds_sf1000— 大規模資料集(約 1 TB)
這兩個資料集具有下列特性:
- 是唯讀的,工作區中的所有使用者都可以查詢
- 與 SQL 倉儲和通用叢集相容
- 遵循標準化基準測試的 TPC-DS 規範
先決條件
您必須具有 SQL 倉儲或多用途叢集的存取權。
預覽資料
若要探索目錄總管UI中的資料:
- 按一下
在側邊欄中點擊目錄。
- 在搜尋列中輸入 tpcds 。 這兩個結構描述都在目錄中
samples。 按一下您要檢視的結構描述名稱。 - 「 概觀 」索引標籤會列出結構描述中的所有表格。 按一下表格名稱,即可開啟該表格中資料行和資料類型的概觀。
- 使用頂端導覽來檢視表格的 [範例資料 ] 或 [詳細資料]。
查詢資料
下列查詢會使用較小規模的資料集 tpcds_sf1。 若要使用較大比例的資料集,請將結構描述名稱取代為 tpcds_sf1000。 按一下側邊欄中的
圖示 SQL 編輯器,以開啟 SQL 編輯器。 然後,使用下列查詢開始探索資料。
預覽表格
SHOW TABLES IN samples.tpcds_sf1;
探索表格
DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;
範例聯結和彙總
SELECT
i_category,
d_year,
SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;