Używanie przykładowego zestawu danych TPC-DS do oceny wydajności systemu

Usługa Azure Databricks zapewnia dostęp do zestawu danych testów porównawczych TPC-DS, powszechnie używanego testu porównawczego do testowania wydajności systemów utworzonych na potrzeby magazynowania danych i analizy. Zestaw danych jest domyślnie dostępny w dwóch rozmiarach w każdym obszarze roboczym obsługującym Unity Catalog. Te zestawy danych są idealne do testowania wydajności usługi Azure Databricks w standardowym teściu porównawczym, który symuluje realistyczne scenariusze biznesowe handlu detalicznego i elektronicznego. Aby dowiedzieć się więcej na temat tego zestawu danych, zobacz dokumentację testu porównawczegoTPC-DS .

Co jest uwzględnione

Zestawy danych TPC-DS są dostępne w samples katalogu z następującymi schematami:

tpcds_sf1 — zestaw danych o małej skali (około 1 GB)
tpcds_sf1000 — zestaw danych na dużą skalę (około 1 TB)

Oba zestawy danych mają następujące cechy:

Można tylko odczytywać i wykonywać zapytania przez wszystkich użytkowników w obszarze roboczym
Są zgodne z magazynami SQL i klastrami ogólnego przeznaczenia
Postępuj zgodnie ze specyfikacją TPC-DS w celu przeprowadzania standaryzowanego benchmarkingu

Wymagania wstępne

Musisz mieć dostęp do usługi SQL Warehouse lub klastra ogólnego przeznaczenia.

Wyświetlanie podglądu danych

Aby eksplorować dane w interfejsie użytkownika Eksploratora wykazu:

Kliknij Wykaz na pasku bocznym.
Wprowadź tpcds na pasku wyszukiwania. Oba schematy znajdują się w wykazie samples . Kliknij nazwę schematu, który chcesz wyświetlić.
Karta Przegląd zawiera listę wszystkich tabel w schemacie. Kliknij nazwę tabeli, aby otworzyć przegląd kolumn i typów danych w tej tabeli.
Użyj górnej nawigacji, aby wyświetlić przykładowe dane lub szczegóły tabeli.

Wykonywanie zapytań dotyczących danych

Następujące zapytania używają zestawu danych o mniejszej skali, tpcds_sf1. Aby użyć zestawu danych o większej skali, zastąp nazwę schematu ciągiem tpcds_sf1000. Kliknij na pasku bocznym, aby otworzyć edytor SQL. Następnie użyj następujących zapytań, aby rozpocząć eksplorowanie danych.

Podgląd tabel

SHOW TABLES IN samples.tpcds_sf1;

Eksplorowanie tabeli

DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;

Przykładowe sprzężenie i agregacja

SELECT
  i_category,
  d_year,
  SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;

Najlepsze rozwiązania

Użyj historii zapytań i profilu zapytania , aby zrozumieć charakterystykę wydajności i zidentyfikować możliwości optymalizacji.
Zacznij od mniejszego tpcds_sf1 zestawu danych na potrzeby testowania początkowego, a następnie przeprowadź skalowanie w górę, aby tpcds_sf1000 uzyskać kompleksową ocenę wydajności.
Porównaj wydajność zapytań w różnych rozmiarach magazynu SQL, aby określić optymalne konfiguracje dla obciążeń.
Użyj tych ustandaryzowanych zestawów danych, aby ustanowić punkty odniesienia wydajności i śledzić ulepszenia w czasie.

Opinia

Czy ta strona była pomocna?

Last updated on 2026-05-03