Not
Åtkomst till denna sida kräver auktorisation. Du kan prova att logga in eller byta katalog.
Åtkomst till denna sida kräver auktorisation. Du kan prova att byta katalog.
Azure Databricks ger åtkomst till den TPC-DS benchmark-datauppsättningen, ett vanligt riktmärke för att testa prestanda för system som skapats för datalagerhantering och analys. Datauppsättningen är tillgänglig i två storlekar som standard i varje Unity Catalog-aktiverad arbetsyta. Dessa datauppsättningar är idealiska för att testa Azure Databricks-prestanda på ett standardiserat riktmärke som simulerar realistiska affärsscenarier för detaljhandel och e-handel. Mer information om den här datamängden finns i dokumentationen omTPC-DS benchmark .
Vad ingår
De TPC-DS datauppsättningarna är tillgängliga i samples katalogen med följande scheman:
-
tpcds_sf1— Småskalig datamängd (cirka 1 GB) -
tpcds_sf1000— Storskalig datamängd (cirka 1 TB)
Båda datauppsättningarna har följande egenskaper:
- Är skrivskyddade och frågebara av alla användare på arbetsytan
- Är kompatibla med SQL-lager och kluster för alla syften
- Följ TPC-DS-specifikationen för standardiserad benchmarking
Förutsättningar
Du måste ha åtkomst till ett SQL-lager eller ett kluster för alla syften.
Förhandsgranska data
Så här utforskar du data i katalogutforskarens användargränssnitt:
- Klicka på
Katalog i sidofältet.
- Ange tpcds i sökfältet. Båda schemana finns i
sampleskatalogen. Klicka på namnet på det schema som du vill visa. - Fliken Översikt visar alla tabeller i schemat. Klicka på ett tabellnamn för att öppna en översikt över kolumnerna och datatyperna i tabellen.
- Använd det övre navigeringsfönstret för att visa tabellens exempeldata eller information.
Fråga efter data
Följande frågor använder den mindre skalningsdatauppsättningen, tpcds_sf1. Om du vill använda datauppsättningen i större skala ersätter du schemanamnet med tpcds_sf1000. Klicka på
SQL Editor i sidofältet för att öppna SQL-redigeraren. Använd sedan följande frågor för att börja utforska data.
Förhandsgranska tabeller
SHOW TABLES IN samples.tpcds_sf1;
Utforska en tabell
DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;
Exempelkoppling och aggregering
SELECT
i_category,
d_year,
SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;
Metodtips
- Använd frågehistoriken och frågeprofilen för att förstå prestandaegenskaper och identifiera optimeringsmöjligheter.
- Börja med den mindre
tpcds_sf1datauppsättningen för inledande testning och skala sedan upp tilltpcds_sf1000för omfattande prestandautvärdering. - Jämför frågeprestanda mellan olika SQL-lagerstorlekar för att fastställa optimala konfigurationer för dina arbetsbelastningar.
- Använd dessa standardiserade datauppsättningar för att upprätta prestandabaslinjer och spåra förbättringar över tid.