Przykładowe zestawy danych

Istnieją różne przykładowe zestawy danych udostępniane przez usługę Azure Databricks i udostępniane przez inne firmy, których można używać w obszarze roboczym usługi Azure Databricks.

Zestawy danych wykazu aparatu Unity

Wykaz aparatu Unity zapewnia dostęp do wielu przykładowych zestawów danych w samples katalogu. Możesz przejrzeć te zestawy danych w interfejsie użytkownika Eksploratora wykazu i odwołać się do nich bezpośrednio w notesie lub w edytorze SQL przy użyciu <catalog-name>.<schema-name>.<table-name> wzorca.

nyctaxi Schemat (znany również jako baza danych) zawiera tabelę trips, która zawiera szczegółowe informacje o przejazdach taksówkami w Nowym Jorku. Poniższa instrukcja zwraca pierwsze 10 rekordów w tej tabeli:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Schemat tpch zawiera dane z testu porównawczego TPC-H. Aby wyświetlić listę tabel w tym schemacie, uruchom polecenie:

SHOW TABLES IN samples.tpch

Zestawy danych usługi Databricks (databricks-datasets)

Usługa Azure Databricks zawiera różne przykładowe zestawy danych zainstalowane w systemie plików DBFS.

Uwaga

Dostępność i lokalizacja zestawów danych usługi Databricks mogą ulec zmianie bez powiadomienia.

Przeglądanie zestawów danych usługi Databricks

Aby przeglądać te pliki z notesu Python, Scala lub R, możesz użyć odwołania do narzędzi usługi Databricks (dbutils). Poniższy kod zawiera listę wszystkich dostępnych zestawów danych usługi Databricks.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Uzyskiwanie informacji o zestawach danych usługi Databricks

Aby uzyskać więcej informacji na temat zestawu danych usługi Databricks, możesz użyć lokalnego interfejsu API plików do wydrukowania zestawu danych README (jeśli jest dostępny) przy użyciu notesu Python, R lub Scala, jak pokazano w tym przykładzie kodu.

Python

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())

Scala

scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}

R

library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

Tworzenie tabeli na podstawie zestawu danych usługi Databricks

W tym przykładzie kodu pokazano, jak używać języka SQL w edytorze SQL lub jak używać notesów SQL, Python, Scala lub R w celu utworzenia tabeli opartej na zestawie danych usługi Databricks:

SQL

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')

Python

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Scala

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

R

library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Przykładowe zestawy danych innych firm w formacie CSV

Usługa Azure Databricks ma wbudowane narzędzia do szybkiego przekazywania przykładowych zestawów danych innych firm jako plików wartości rozdzielanych przecinkami (CSV) do obszarów roboczych usługi Azure Databricks. Niektóre popularne przykładowe zestawy danych innych firm dostępne w formacie CSV:

Przykładowy zestaw danych Aby pobrać przykładowy zestaw danych jako plik CSV...
Spis wiewiórki Na stronie Dane kliknij pozycję Park Data (Dane parkowe),
Wiewiórka dane lub historie.
Kolekcja zestawów danych OWID W repozytorium GitHub kliknij folder zestawy danych. Kliknij podfolder zawierający docelowy zestaw danych, a następnie kliknij plik CSV zestawu danych.
zestawy danych csv Data.gov Na stronie wyników wyszukiwania kliknij docelowy wynik wyszukiwania, a następnie obok ikony CSV kliknij pozycję Pobierz.
Diamenty (wymaga konta Kaggle ) Na stronie internetowej zestawu danych na karcie Dane na karcie Dane obok diamonds.csv kliknij ikonę Pobierz.
Czas trwania przejazdu taksówką w Nowym Jorku (wymaga konta Kaggle ) Na stronie internetowej zestawu danych na karcie Dane obok sample_submission.zip kliknij przycisk
Ikona pobierania . Aby znaleźć pliki CSV zestawu danych, wyodrębnia zawartość pobranego pliku ZIP.
Obserwacje UFO (wymaga konta data.world ) Na stronie internetowej zestawu danych obok
nuforc_reports.csv kliknij ikonę Pobierz.

Aby użyć przykładowych zestawów danych innych firm w obszarze roboczym usługi Azure Databricks, wykonaj następujące czynności:

  1. Postępuj zgodnie z instrukcjami innych firm, aby pobrać zestaw danych jako plik CSV na komputer lokalny.
  2. Przekaż plik CSV z komputera lokalnego do obszaru roboczego usługi Azure Databricks.
  3. Aby pracować z zaimportowanymi danymi, użyj usługi Databricks SQL do wykonywania zapytań dotyczących danych. Możesz też użyć notesu, aby załadować dane jako ramkę danych.

Przykładowe zestawy danych innych firm w bibliotekach

Niektóre inne firmy obejmują przykładowe zestawy danych w bibliotekach, takie jak pakiety PyPI (Python Package Index) lub kompleksowe pakiety CRAN (R Archive Network). Aby uzyskać więcej informacji, zobacz dokumentację dostawcy biblioteki.