次の方法で共有


TPC-DS サンプル データセットを使用してシステム パフォーマンスを評価する

Azure Databricks では、TPC-DS ベンチマーク データセットにアクセスできます。これは、データ ウェアハウスと分析用に構築されたシステムのパフォーマンスをテストするために広く使用されているベンチマークです。 データセットは、Unity カタログが有効なすべてのワークスペースで既定で 2 つのサイズで使用できます。 これらのデータセットは、現実的な小売と eコマースのビジネス シナリオをシミュレートする標準化されたベンチマークで Azure Databricks のパフォーマンスをテストするのに最適です。 このデータセットの詳細については、 TPC-DS ベンチマーク のドキュメントを参照してください。

含まれるもの

TPC-DS データセットは、次のスキーマを持つ samples カタログで使用できます。

  • tpcds_sf1 — 小規模なデータセット (約 1 GB)
  • tpcds_sf1000 — 大規模なデータセット (約 1 TB)

どちらのデータセットも、次の特性を共有します。

  • ワークスペース内のすべてのユーザーが読み取り専用でクエリ可能
  • SQL ウェアハウスおよび万能クラスターと互換性がある
  • 標準化されたベンチマークの TPC-DS 仕様に従う

[前提条件]

SQL ウェアハウスまたは汎用クラスターにアクセスできる必要があります。

データをプレビューする

カタログ エクスプローラー UI でデータを探索するには:

  1. [データ] アイコンをクリックします。サイドバーのカタログ
  2. 検索バー に「tpcds 」と入力します。 どちらのスキーマも、 samples カタログ内にあります。 表示するスキーマの名前をクリックします。
  3. [ 概要 ] タブには、スキーマ内のすべてのテーブルが一覧表示されます。 テーブル名をクリックすると、そのテーブル内の列とデータ型の概要が開きます。
  4. 上部のナビゲーションを使用して、テーブルの サンプル データ または詳細を表示 します

データのクエリを実行する

次のクエリでは、小規模なデータセット ( tpcds_sf1) を使用します。 大規模なデータセットを使用するには、スキーマ名を tpcds_sf1000に置き換えます。 サイドバーで [SQL エディター] アイコン[SQL エディター ] をクリックして、SQL エディターを開きます。 次に、次のクエリを使用してデータの探索を開始します。

テーブルのプレビュー

SHOW TABLES IN samples.tpcds_sf1;

テーブルを探索する

DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;

結合と集計のサンプル

SELECT
  i_category,
  d_year,
  SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;

ベスト プラクティス

  • クエリ履歴クエリ プロファイルを使用して、パフォーマンス特性を理解し、最適化の機会を特定します。
  • 初期テスト用の小さい tpcds_sf1 データセットから始めて、包括的なパフォーマンス評価のために tpcds_sf1000 にスケールアップします。
  • さまざまな SQL ウェアハウス サイズ間でクエリのパフォーマンスを比較し、ワークロードに最適な構成を決定します。
  • これらの標準化されたデータセットを使用して、パフォーマンス ベースラインを確立し、時間の経過に伴う改善を追跡します。