Condividi tramite


Usare il set di dati di esempio TPC-DS per valutare le prestazioni del sistema

Azure Databricks consente di accedere al set di dati di benchmark TPC-DS, un benchmark ampiamente usato per testare le prestazioni dei sistemi creati per il data warehousing e l'analisi. Il set di dati è disponibile in due dimensioni per impostazione predefinita in ogni area di lavoro abilitata per il catalogo unity. Questi set di dati sono ideali per testare le prestazioni di Azure Databricks in un benchmark standardizzato che simula scenari di business di vendita al dettaglio e e-commerce realistici. Per altre informazioni su questo set di dati, vedere la documentazione diTPC-DS benchmark .

Elementi inclusi

I set di dati TPC-DS sono disponibili nel samples catalogo con gli schemi seguenti:

  • tpcds_sf1 — Set di dati su scala ridotta (circa 1 GB)
  • tpcds_sf1000 — Set di dati su larga scala (circa 1 TB)

Entrambi i set di dati condividono le qualità seguenti:

  • Sono di sola lettura ed è possibile eseguire query da tutti gli utenti nell'area di lavoro
  • Sono compatibili con sql warehouse e cluster all-purpose
  • Seguire la specifica TPC-DS per il benchmarking standardizzato

Prerequisiti

È necessario avere accesso a un'istanza di SQL Warehouse o a un cluster all-purpose.

Visualizzare in anteprima i dati

Per esplorare i dati nell'interfaccia utente di Esplora cataloghi:

  1. Fare clic sull'icona Dati.Catalogo nella barra laterale.
  2. Immettere tpcds nella barra di ricerca. Entrambi gli schemi si trovano nel samples catalogo. Fare clic sul nome dello schema da visualizzare.
  3. Nella scheda Panoramica sono elencate tutte le tabelle nello schema. Fare clic su un nome di tabella per aprire una panoramica delle colonne e dei tipi di dati in tale tabella.
  4. Usare lo spostamento superiore per visualizzare i dati di esempio o i dettagli della tabella.

Eseguire query sui dati

Le query seguenti usano il set di dati di scalabilità più piccolo, tpcds_sf1. Per usare il set di dati di scalabilità più grande, sostituire il nome dello schema con tpcds_sf1000. Fare clic su Editor SQL Icona Editor SQL nella barra laterale per aprire l'editor SQL. Usare quindi le query seguenti per iniziare a esplorare i dati.

Tabelle di anteprima

SHOW TABLES IN samples.tpcds_sf1;

Esplorare una tabella

DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;

Join e aggregazione di esempio

SELECT
  i_category,
  d_year,
  SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;

Procedure consigliate

  • Usare la cronologia delle query e il profilo di query per comprendere le caratteristiche delle prestazioni e identificare le opportunità di ottimizzazione.
  • Iniziare con il set di dati più piccolo tpcds_sf1 per i test iniziali, quindi passare a tpcds_sf1000 per una valutazione completa delle prestazioni.
  • Confrontare le prestazioni delle query tra diverse dimensioni di SQL Warehouse per determinare configurazioni ottimali per i carichi di lavoro.
  • Usare questi set di dati standardizzati per stabilire linee di base delle prestazioni e tenere traccia dei miglioramenti nel tempo.