Delen via


De TPC-DS voorbeeldgegevensset gebruiken om systeemprestaties te evalueren

Azure Databricks biedt toegang tot de TPC-DS benchmarkgegevensset, een veelgebruikte benchmark voor het testen van de prestaties van systemen die zijn gebouwd voor datawarehousing en analyses. De gegevensset is standaard beschikbaar in twee grootten in elke werkruimte met Unity Catalog. Deze gegevenssets zijn ideaal voor het testen van De prestaties van Azure Databricks op een gestandaardiseerde benchmark die realistische bedrijfsscenario's voor detailhandel en e-commerce simuleert. Zie de TPC-DS benchmarkdocumentatie voor meer informatie over deze gegevensset.

Wat is inbegrepen

De TPC-DS gegevenssets zijn beschikbaar in de samples catalogus met de volgende schema's:

  • tpcds_sf1 — Kleinschalige gegevensset (ongeveer 1 GB)
  • tpcds_sf1000 — Grootschalige gegevensset (ongeveer 1 TB)

Beide gegevenssets delen de volgende kwaliteiten:

  • Zijn alleen-lezen en doorzoekbaar voor alle gebruikers in de werkruimte
  • Zijn compatibel met SQL-warehouses en clusters voor alle doeleinden
  • Volg de TPC-DS specificatie voor gestandaardiseerde benchmarking

Vereiste voorwaarden

U moet toegang hebben tot een SQL-warehouse of een cluster voor alle doeleinden.

Voorbeeld van de gegevens bekijken

De gegevens verkennen in de gebruikersinterface van Catalog Explorer:

  1. Klik op het pictogram Gegevens.Catalogus in de zijbalk.
  2. Voer tpcds in de zoekbalk in. Beide schema's bevinden zich in de samples catalogus. Klik op de naam van het schema dat u wilt weergeven.
  3. Het tabblad Overzicht bevat alle tabellen in het schema. Klik op een tabelnaam om een overzicht van de kolommen en gegevenstypen in die tabel te openen.
  4. Gebruik de bovenste navigatie om de voorbeeldgegevens of details van de tabel weer te geven.

Query's uitvoeren op de gegevens

De volgende query's maken gebruik van de kleinere gegevensset. tpcds_sf1 Als u de grotere gegevensset wilt gebruiken, vervangt u de schemanaam door tpcds_sf1000. Klik op SQL Editor IconSQL Editor in de zijbalk om de SQL-editor te openen. Gebruik vervolgens de volgende query's om de gegevens te verkennen.

Voorbeeld van tabellen

SHOW TABLES IN samples.tpcds_sf1;

Een tabel verkennen

DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;

Voorbeelddeelname en aggregatie

SELECT
  i_category,
  d_year,
  SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;

Beste praktijken

  • Gebruik de querygeschiedenis en het queryprofiel om inzicht te krijgen in prestatiekenmerken en optimalisatiemogelijkheden te identificeren.
  • Begin met de kleinere tpcds_sf1 gegevensset voor eerste tests en schaal vervolgens omhoog tot tpcds_sf1000 uitgebreide prestatie-evaluatie.
  • Vergelijk de queryprestaties in verschillende SQL-magazijngrootten om optimale configuraties voor uw workloads te bepalen.
  • Gebruik deze gestandaardiseerde gegevenssets om prestatiebasislijnen vast te stellen en verbeteringen in de loop van de tijd bij te houden.