Azure Databricks では、TPC-DS ベンチマーク データセットにアクセスできます。これは、データ ウェアハウスと分析用に構築されたシステムのパフォーマンスをテストするために広く使用されているベンチマークです。 データセットは、Unity カタログが有効なすべてのワークスペースで既定で 2 つのサイズで使用できます。 これらのデータセットは、現実的な小売と eコマースのビジネス シナリオをシミュレートする標準化されたベンチマークで Azure Databricks のパフォーマンスをテストするのに最適です。 このデータセットの詳細については、 TPC-DS ベンチマーク のドキュメントを参照してください。
含まれるもの
TPC-DS データセットは、次のスキーマを持つ samples カタログで使用できます。
-
tpcds_sf1— 小規模なデータセット (約 1 GB) -
tpcds_sf1000— 大規模なデータセット (約 1 TB)
どちらのデータセットも、次の特性を共有します。
- ワークスペース内のすべてのユーザーが読み取り専用でクエリ可能
- SQL ウェアハウスおよび万能クラスターと互換性がある
- 標準化されたベンチマークの TPC-DS 仕様に従う
[前提条件]
SQL ウェアハウスまたは汎用クラスターにアクセスできる必要があります。
データをプレビューする
カタログ エクスプローラー UI でデータを探索するには:
- [
サイドバーのカタログ。
- 検索バー に「tpcds 」と入力します。 どちらのスキーマも、
samplesカタログ内にあります。 表示するスキーマの名前をクリックします。 - [ 概要 ] タブには、スキーマ内のすべてのテーブルが一覧表示されます。 テーブル名をクリックすると、そのテーブル内の列とデータ型の概要が開きます。
- 上部のナビゲーションを使用して、テーブルの サンプル データ または詳細を表示 します。
データのクエリを実行する
次のクエリでは、小規模なデータセット ( tpcds_sf1) を使用します。 大規模なデータセットを使用するには、スキーマ名を tpcds_sf1000に置き換えます。 サイドバーで
[SQL エディター ] をクリックして、SQL エディターを開きます。 次に、次のクエリを使用してデータの探索を開始します。
テーブルのプレビュー
SHOW TABLES IN samples.tpcds_sf1;
テーブルを探索する
DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;
結合と集計のサンプル
SELECT
i_category,
d_year,
SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;
ベスト プラクティス
- クエリ履歴とクエリ プロファイルを使用して、パフォーマンス特性を理解し、最適化の機会を特定します。
- 初期テスト用の小さい
tpcds_sf1データセットから始めて、包括的なパフォーマンス評価のためにtpcds_sf1000にスケールアップします。 - さまざまな SQL ウェアハウス サイズ間でクエリのパフォーマンスを比較し、ワークロードに最適な構成を決定します。
- これらの標準化されたデータセットを使用して、パフォーマンス ベースラインを確立し、時間の経過に伴う改善を追跡します。