Przykładowe zestawy danych

Istnieją różne przykładowe zestawy danych udostępniane przez usługę Azure Databricks i udostępniane przez inne firmy, których można używać w obszarze roboczym usługi Azure Databricks.

Zestawy danych Katalogu Unity

Unity Catalog zapewnia dostęp do wielu przykładowych zestawów danych w samples katalogu. Te zestawy danych można przejrzeć w interfejsie użytkownika eksploratora wykazu Catalog Explorer UI i odwoływać się do nich bezpośrednio w notebooku lub w edytorze SQL za pomocą wzorca <catalog-name>.<schema-name>.<table-name>.

W poniższej tabeli wymieniono dostępne schematy w wykazie samples :

Dataset	Opis
`nyctaxi`	Rekordy podróży taksówką dla Nowego Jorku.
`tpch`	Zestaw danych na dużą skalę (około 1 TB) z testu porównawczegoTPC-H.
`tpcds_sf1`	Zestaw danych o małej skali (około 1 GB) z testu porównawczegoTPC-DS.
`wanderbricks`	Symulowana platforma do rezerwacji podróży z użytkownikami, obiektami, rezerwacjami, recenzjami i nie tylko.

nyctaxi

Schemat nyctaxi zawiera tabelę trips, która zawiera szczegółowe informacje o przejazdach taksówkami w Nowym Jorku. Poniższy przykład zwraca pierwsze 10 rekordów w tej tabeli:

SQL

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Python

display(spark.read.table("samples.nyctaxi.trips").limit(10))

tpch

Schemat tpch zawiera dane z TPC-H Benchmark. Aby wyświetlić listę tabel w tym schemacie, uruchom polecenie:

SQL

SHOW TABLES IN samples.tpch

Python

display(spark.sql("SHOW TABLES IN samples.tpch"))

tpcds_sf1

Schemat tpcds_sf1 zawiera dane z testu porównawczegoTPC-DS. Aby wyświetlić listę tabel w tym schemacie, uruchom polecenie:

SQL

SHOW TABLES IN samples.tpcds_sf1;

Python

display(spark.sql("SHOW TABLES IN samples.tpcds_sf1"))

Aby uzyskać więcej wskazówek dotyczących sposobu używania tego zestawu danych do oceny wydajności systemu, zobacz Używanie przykładowego zestawu danych TPC-DS do oceny wydajności systemu.

wanderbricks

Schemat wanderbricks zawiera symulowany zestaw danych platformy rezerwacji podróży. Aby uzyskać szczegółowe informacje na temat wanderbricks tabel zestawów danych, zobacz Wanderbricks dataset.

Przykładowe zestawy danych innych firm w formacie CSV

Usługa Azure Databricks ma wbudowane narzędzia do szybkiego przekazywania przykładowych zestawów danych innych firm jako plików wartości rozdzielanych przecinkami (CSV) do obszarów roboczych usługi Azure Databricks. Niektóre popularne przykładowe zestawy danych innych firm dostępne w formacie CSV:

Przykładowy zestaw danych	Aby pobrać przykładowy zestaw danych jako plik CSV...
Spis wiewiórki	Na stronie Dane kliknij pozycję Park Data (Dane parkowe), Wiewiórka dane lub historie.
Kolekcja zestawów danych OWID	W repozytorium GitHub kliknij folder datasets. Kliknij podfolder zawierający docelowy zestaw danych, a następnie kliknij plik CSV zestawu danych.
Zestawy danych CSV Data.gov	Na stronie wyników wyszukiwania kliknij docelowy wynik wyszukiwania, a następnie obok ikony CSV kliknij pozycję Pobierz.
Diamenty (wymaga konta Kaggle )	Na stronie internetowej zestawu danych na karcie Dane na karcie Dane obok pozycjidiamonds.csvkliknij ikonę Pobierz .
Czas trwania przejazdu taksówką w Nowym Jorku (wymaga konta Kaggle )	Na stronie internetowej zestawu danych na karcie Dane obok pozycjisample_submission.zipkliknij przycisk Ikona pobierania . Aby znaleźć pliki CSV zestawu danych, wyodrębnia zawartość pobranego pliku ZIP.

Aby użyć przykładowych zestawów danych innych firm w obszarze roboczym usługi Azure Databricks, wykonaj następujące czynności:

Postępuj zgodnie z instrukcjami innych firm, aby pobrać zestaw danych jako plik CSV na komputer lokalny.
Przekaż plik CSV z komputera lokalnego do obszaru roboczego usługi Azure Databricks.
Aby pracować z zaimportowanymi danymi, użyj usługi Databricks SQL do wykonywania zapytań dotyczących danych. Możesz też użyć notesu, aby załadować dane jako ramkę danych.

Przykładowe zestawy danych innych firm w bibliotekach

Niektóre inne firmy obejmują przykładowe zestawy danych w bibliotekach, takie jak pakiety PyPI (Python Package Index) lub kompleksowe pakiety CRAN (R Archive Network). Aby uzyskać więcej informacji, zobacz dokumentację dostawcy biblioteki.

Aby zainstalować bibliotekę w klastrze usługi Azure Databricks za pomocą interfejsu użytkownika klastra, zobacz Biblioteki o zakresie obliczeniowym.
Aby zainstalować bibliotekę języka Python przy użyciu notesu usługi Azure Databricks, zapoznaj się z Notebook-scoped Python libraries.
Aby zainstalować bibliotekę języka R przy użyciu notesu usługi Azure Databricks, zobacz Notebook-scoped R libraries (Biblioteki języka R z zakresem notesu).

Zestawy danych Databricks (databricks-datasets) podłączone do systemu plików DBFS

Usługa Azure Databricks odradza używanie systemu plików DBFS i zamontowanego magazynu obiektów w chmurze w większości przypadków użycia w obszarach roboczych usługi Databricks z włączonym Unity Catalog. Niektóre przykładowe zestawy danych zainstalowane w systemie dbFS są dostępne w usłudze Azure Databricks

Uwaga

Dostępność i lokalizacja zestawów danych usługi Databricks mogą ulec zmianie bez powiadomienia.

Przeglądanie zamontowanych zestawów danych Databricks w DBFS

Aby przeglądać te pliki z notesu Python, Scala lub R, możesz użyć dokumentacji narzędzi usługi Databricks (dbutils). Poniższy kod zawiera listę wszystkich dostępnych zestawów danych usługi Databricks.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Skala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Opinia

Czy ta strona była pomocna?

Last updated on 2026-05-18

Przykładowe zestawy danych

Zestawy danych Katalogu Unity

nyctaxi

SQL

Python

tpch

SQL

Python

tpcds_sf1

SQL

Python

wanderbricks

Przykładowe zestawy danych innych firm w formacie CSV

Przykładowe zestawy danych innych firm w bibliotekach

Zestawy danych Databricks (databricks-datasets) podłączone do systemu plików DBFS

Przeglądanie zamontowanych zestawów danych Databricks w DBFS

Python

Skala

R

Opinia

Dodatkowe zasoby