Anmerkung
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen, dich anzumelden oder die Verzeichnisse zu wechseln.
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen , die Verzeichnisse zu wechseln.
Azure Databricks bietet Zugriff auf das TPC-DS Benchmark-Dataset, einen weit verbreiteten Benchmark zum Testen der Leistung von Systemen, die für Data Warehouse und Analytics entwickelt wurden. Das Dataset ist standardmäßig in zwei Größen in jedem Unity-Katalog-aktivierten Arbeitsbereich verfügbar. Diese Datasets eignen sich ideal zum Testen der Azure Databricks-Leistung auf einem standardisierten Benchmark, der realistische Einzelhandels- und E-Commerce-Geschäftsszenarien simuliert. Weitere Informationen zu diesem Dataset finden Sie in der Dokumentation zuTPC-DS Benchmarks .
Enthaltene Elemente
Die TPC-DS Datasets sind im samples Katalog mit den folgenden Schemas verfügbar:
-
tpcds_sf1— Kleine Datasets (ca. 1 GB) -
tpcds_sf1000— Großes Dataset (ca. 1 TB)
Beide Datasets teilen die folgenden Qualitäten:
- Schreibgeschützt und von allen Benutzern im Arbeitsbereich abfragbar
- Sind kompatibel mit SQL-Lagerhäusern und allzweckfähigen Clustern
- Befolgen Sie die TPC-DS Spezifikation für standardisiertes Benchmarking
Voraussetzungen
Sie müssen Zugriff auf ein SQL-Lagerhaus oder einen allzweckbezogenen Cluster haben.
Vorschau der Daten
So erkunden Sie die Daten in der Katalog-Explorer-Benutzeroberfläche:
- Klicken Sie auf
Katalog in der Randleiste.
- Geben Sie tpcds in die Suchleiste ein. Beide Schemas befinden sich im
samplesKatalog. Klicken Sie auf den Namen des Schemas, das Sie anzeigen möchten. - Auf der Registerkarte " Übersicht " werden alle Tabellen im Schema aufgelistet. Klicken Sie auf einen Tabellennamen, um eine Übersicht über die Spalten und Datentypen in dieser Tabelle zu öffnen.
- Verwenden Sie die obere Navigation, um die Beispieldaten oder Details der Tabelle anzuzeigen.
Abfragen der Daten
In den folgenden Abfragen wird das kleinere Dataset verwendet. tpcds_sf1 Um das größere Dataset zu verwenden, ersetzen Sie den Schemanamen durch tpcds_sf1000. Klicken Sie auf dem
in der Randleiste, um den SQL-Editor zu öffnen. Verwenden Sie dann die folgenden Abfragen, um mit der Erkundung der Daten zu beginnen.
Vorschau von Tabellen
SHOW TABLES IN samples.tpcds_sf1;
Erkunden einer Tabelle
DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;
Beispielbeitritt und Aggregation
SELECT
i_category,
d_year,
SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;
Bewährte Methoden
- Verwenden Sie den Abfrageverlauf und das Abfrageprofil , um Leistungsmerkmale zu verstehen und Optimierungsmöglichkeiten zu identifizieren.
- Beginnen Sie mit dem kleineren
tpcds_sf1Dataset für anfängliche Tests, und skalieren Sie dann bis hin zutpcds_sf1000einer umfassenden Leistungsbewertung. - Vergleichen Sie die Abfrageleistung in verschiedenen SQL Warehouse-Größen, um optimale Konfigurationen für Ihre Workloads zu ermitteln.
- Verwenden Sie diese standardisierten Datasets, um Leistungsbaselines einzurichten und Verbesserungen im Laufe der Zeit nachzuverfolgen.