Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Usługa Azure Databricks zapewnia dostęp do zestawu danych testów porównawczych TPC-DS, powszechnie używanego testu porównawczego do testowania wydajności systemów utworzonych na potrzeby magazynowania danych i analizy. Zestaw danych jest domyślnie dostępny w dwóch rozmiarach w każdym obszarze roboczym obsługującym wykaz aparatu Unity. Te zestawy danych są idealne do testowania wydajności usługi Azure Databricks w standardowym teściu porównawczym, który symuluje realistyczne scenariusze biznesowe handlu detalicznego i elektronicznego. Aby dowiedzieć się więcej na temat tego zestawu danych, zobacz dokumentację testu porównawczegoTPC-DS .
Co jest uwzględnione
Zestawy danych TPC-DS są dostępne w samples katalogu z następującymi schematami:
-
tpcds_sf1— zestaw danych o małej skali (około 1 GB) -
tpcds_sf1000— zestaw danych na dużą skalę (około 1 TB)
Oba zestawy danych mają następujące cechy:
- Można wykonywać zapytania tylko do odczytu i wykonywać zapytania przez wszystkich użytkowników w obszarze roboczym
- Są zgodne z magazynami SQL i klastrami ogólnego przeznaczenia
- Postępuj zgodnie ze specyfikacją TPC-DS standardowego testu porównawczego
Wymagania wstępne
Musisz mieć dostęp do usługi SQL Warehouse lub klastra ogólnego przeznaczenia.
Wyświetlanie podglądu danych
Aby eksplorować dane w interfejsie użytkownika Eksploratora wykazu:
- Kliknij
Wykaz na pasku bocznym.
- Wprowadź ciąg tpcds na pasku wyszukiwania. Oba schematy znajdują się w wykazie
samples. Kliknij nazwę schematu, który chcesz wyświetlić. - Karta Przegląd zawiera listę wszystkich tabel w schemacie. Kliknij nazwę tabeli, aby otworzyć przegląd kolumn i typów danych w tej tabeli.
- Użyj górnej nawigacji, aby wyświetlić przykładowe dane lub szczegóły tabeli.
Wykonywanie zapytań dotyczących danych
Następujące zapytania używają zestawu danych o mniejszej skali, tpcds_sf1. Aby użyć zestawu danych o większej skali, zastąp nazwę schematu ciągiem tpcds_sf1000. Kliknij
na pasku bocznym, aby otworzyć edytor SQL. Następnie użyj następujących zapytań, aby rozpocząć eksplorowanie danych.
Podgląd tabel
SHOW TABLES IN samples.tpcds_sf1;
Eksplorowanie tabeli
DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;
Przykładowe sprzężenia i agregacja
SELECT
i_category,
d_year,
SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;
Najlepsze rozwiązania
- Użyj historii zapytań i profilu zapytania , aby zrozumieć charakterystykę wydajności i zidentyfikować możliwości optymalizacji.
- Zacznij od mniejszego
tpcds_sf1zestawu danych na potrzeby testowania początkowego, a następnie przeprowadź skalowanie w górę, abytpcds_sf1000uzyskać kompleksową ocenę wydajności. - Porównaj wydajność zapytań w różnych rozmiarach magazynu SQL, aby określić optymalne konfiguracje dla obciążeń.
- Użyj tych ustandaryzowanych zestawów danych, aby ustanowić punkty odniesienia wydajności i śledzić ulepszenia w czasie.