Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Azure Databricks consente di accedere al set di dati di benchmark TPC-DS, un benchmark ampiamente usato per testare le prestazioni dei sistemi creati per il data warehousing e l'analisi. Il set di dati è disponibile in due dimensioni per impostazione predefinita in ogni area di lavoro abilitata per il catalogo unity. Questi set di dati sono ideali per testare le prestazioni di Azure Databricks in un benchmark standardizzato che simula scenari di business di vendita al dettaglio e e-commerce realistici. Per altre informazioni su questo set di dati, vedere la documentazione diTPC-DS benchmark .
Elementi inclusi
I set di dati TPC-DS sono disponibili nel samples catalogo con gli schemi seguenti:
-
tpcds_sf1— Set di dati su scala ridotta (circa 1 GB) -
tpcds_sf1000— Set di dati su larga scala (circa 1 TB)
Entrambi i set di dati condividono le qualità seguenti:
- Sono di sola lettura ed è possibile eseguire query da tutti gli utenti nell'area di lavoro
- Sono compatibili con sql warehouse e cluster all-purpose
- Seguire la specifica TPC-DS per il benchmarking standardizzato
Prerequisiti
È necessario avere accesso a un'istanza di SQL Warehouse o a un cluster all-purpose.
Visualizzare in anteprima i dati
Per esplorare i dati nell'interfaccia utente di Esplora cataloghi:
- Fare clic
Catalogo nella barra laterale.
- Immettere tpcds nella barra di ricerca. Entrambi gli schemi si trovano nel
samplescatalogo. Fare clic sul nome dello schema da visualizzare. - Nella scheda Panoramica sono elencate tutte le tabelle nello schema. Fare clic su un nome di tabella per aprire una panoramica delle colonne e dei tipi di dati in tale tabella.
- Usare lo spostamento superiore per visualizzare i dati di esempio o i dettagli della tabella.
Eseguire query sui dati
Le query seguenti usano il set di dati di scalabilità più piccolo, tpcds_sf1. Per usare il set di dati di scalabilità più grande, sostituire il nome dello schema con tpcds_sf1000. Fare clic su
nella barra laterale per aprire l'editor SQL. Usare quindi le query seguenti per iniziare a esplorare i dati.
Tabelle di anteprima
SHOW TABLES IN samples.tpcds_sf1;
Esplorare una tabella
DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;
Join e aggregazione di esempio
SELECT
i_category,
d_year,
SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;
Procedure consigliate
- Usare la cronologia delle query e il profilo di query per comprendere le caratteristiche delle prestazioni e identificare le opportunità di ottimizzazione.
- Iniziare con il set di dati più piccolo
tpcds_sf1per i test iniziali, quindi passare atpcds_sf1000per una valutazione completa delle prestazioni. - Confrontare le prestazioni delle query tra diverse dimensioni di SQL Warehouse per determinare configurazioni ottimali per i carichi di lavoro.
- Usare questi set di dati standardizzati per stabilire linee di base delle prestazioni e tenere traccia dei miglioramenti nel tempo.