Dela via


Använd TPC-DS exempeldatauppsättningen för att utvärdera systemprestanda

Azure Databricks ger åtkomst till den TPC-DS benchmark-datauppsättningen, ett vanligt riktmärke för att testa prestanda för system som skapats för datalagerhantering och analys. Datauppsättningen är tillgänglig i två storlekar som standard i varje Unity Catalog-aktiverad arbetsyta. Dessa datauppsättningar är idealiska för att testa Azure Databricks-prestanda på ett standardiserat riktmärke som simulerar realistiska affärsscenarier för detaljhandel och e-handel. Mer information om den här datamängden finns i dokumentationen omTPC-DS benchmark .

Vad ingår

De TPC-DS datauppsättningarna är tillgängliga i samples katalogen med följande scheman:

  • tpcds_sf1 — Småskalig datamängd (cirka 1 GB)
  • tpcds_sf1000 — Storskalig datamängd (cirka 1 TB)

Båda datauppsättningarna har följande egenskaper:

  • Är skrivskyddade och frågebara av alla användare på arbetsytan
  • Är kompatibla med SQL-lager och kluster för alla syften
  • Följ TPC-DS-specifikationen för standardiserad benchmarking

Förutsättningar

Du måste ha åtkomst till ett SQL-lager eller ett kluster för alla syften.

Förhandsgranska data

Så här utforskar du data i katalogutforskarens användargränssnitt:

  1. Klicka på dataikonen.Katalog i sidofältet.
  2. Ange tpcds i sökfältet. Båda schemana finns i samples katalogen. Klicka på namnet på det schema som du vill visa.
  3. Fliken Översikt visar alla tabeller i schemat. Klicka på ett tabellnamn för att öppna en översikt över kolumnerna och datatyperna i tabellen.
  4. Använd det övre navigeringsfönstret för att visa tabellens exempeldata eller information.

Fråga efter data

Följande frågor använder den mindre skalningsdatauppsättningen, tpcds_sf1. Om du vill använda datauppsättningen i större skala ersätter du schemanamnet med tpcds_sf1000. Klicka på SQL Editor IconSQL Editor i sidofältet för att öppna SQL-redigeraren. Använd sedan följande frågor för att börja utforska data.

Förhandsgranska tabeller

SHOW TABLES IN samples.tpcds_sf1;

Utforska en tabell

DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;

Exempelkoppling och aggregering

SELECT
  i_category,
  d_year,
  SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;

Metodtips

  • Använd frågehistoriken och frågeprofilen för att förstå prestandaegenskaper och identifiera optimeringsmöjligheter.
  • Börja med den mindre tpcds_sf1 datauppsättningen för inledande testning och skala sedan upp till tpcds_sf1000 för omfattande prestandautvärdering.
  • Jämför frågeprestanda mellan olika SQL-lagerstorlekar för att fastställa optimala konfigurationer för dina arbetsbelastningar.
  • Använd dessa standardiserade datauppsättningar för att upprätta prestandabaslinjer och spåra förbättringar över tid.