Teilen über


Verwenden des TPC-DS Beispieldatensatzes zum Auswerten der Systemleistung

Azure Databricks bietet Zugriff auf das TPC-DS Benchmark-Dataset, einen weit verbreiteten Benchmark zum Testen der Leistung von Systemen, die für Data Warehouse und Analytics entwickelt wurden. Das Dataset ist standardmäßig in zwei Größen in jedem Unity-Katalog-aktivierten Arbeitsbereich verfügbar. Diese Datasets eignen sich ideal zum Testen der Azure Databricks-Leistung auf einem standardisierten Benchmark, der realistische Einzelhandels- und E-Commerce-Geschäftsszenarien simuliert. Weitere Informationen zu diesem Dataset finden Sie in der Dokumentation zuTPC-DS Benchmarks .

Enthaltene Elemente

Die TPC-DS Datasets sind im samples Katalog mit den folgenden Schemas verfügbar:

  • tpcds_sf1 — Kleine Datasets (ca. 1 GB)
  • tpcds_sf1000 — Großes Dataset (ca. 1 TB)

Beide Datasets teilen die folgenden Qualitäten:

  • Schreibgeschützt und von allen Benutzern im Arbeitsbereich abfragbar
  • Sind kompatibel mit SQL-Lagerhäusern und allzweckfähigen Clustern
  • Befolgen Sie die TPC-DS Spezifikation für standardisiertes Benchmarking

Voraussetzungen

Sie müssen Zugriff auf ein SQL-Lagerhaus oder einen allzweckbezogenen Cluster haben.

Vorschau der Daten

So erkunden Sie die Daten in der Katalog-Explorer-Benutzeroberfläche:

  1. Klicken Sie auf das Symbol Katalog in der Randleiste.
  2. Geben Sie tpcds in die Suchleiste ein. Beide Schemas befinden sich im samples Katalog. Klicken Sie auf den Namen des Schemas, das Sie anzeigen möchten.
  3. Auf der Registerkarte " Übersicht " werden alle Tabellen im Schema aufgelistet. Klicken Sie auf einen Tabellennamen, um eine Übersicht über die Spalten und Datentypen in dieser Tabelle zu öffnen.
  4. Verwenden Sie die obere Navigation, um die Beispieldaten oder Details der Tabelle anzuzeigen.

Abfragen der Daten

In den folgenden Abfragen wird das kleinere Dataset verwendet. tpcds_sf1 Um das größere Dataset zu verwenden, ersetzen Sie den Schemanamen durch tpcds_sf1000. Klicken Sie auf dem SQL Editor-Symbol-SQL-Editor in der Randleiste, um den SQL-Editor zu öffnen. Verwenden Sie dann die folgenden Abfragen, um mit der Erkundung der Daten zu beginnen.

Vorschau von Tabellen

SHOW TABLES IN samples.tpcds_sf1;

Erkunden einer Tabelle

DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;

Beispielbeitritt und Aggregation

SELECT
  i_category,
  d_year,
  SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;

Bewährte Methoden

  • Verwenden Sie den Abfrageverlauf und das Abfrageprofil , um Leistungsmerkmale zu verstehen und Optimierungsmöglichkeiten zu identifizieren.
  • Beginnen Sie mit dem kleineren tpcds_sf1 Dataset für anfängliche Tests, und skalieren Sie dann bis hin zu tpcds_sf1000 einer umfassenden Leistungsbewertung.
  • Vergleichen Sie die Abfrageleistung in verschiedenen SQL Warehouse-Größen, um optimale Konfigurationen für Ihre Workloads zu ermitteln.
  • Verwenden Sie diese standardisierten Datasets, um Leistungsbaselines einzurichten und Verbesserungen im Laufe der Zeit nachzuverfolgen.