Beispieldatasets

Es gibt eine Vielzahl von Beispieldatasets, die von Azure Databricks bereitgestellt und von Drittanbietern zur Verfügung gestellt werden, die Sie in Ihrem Azure Databricks-Arbeitsbereich verwenden können.

Unity Catalog-Datasets

Unity Catalog bietet Zugriff auf eine Reihe von Beispieldatasets im samples-Katalog. Sie können diese Datasets auf der Benutzeroberfläche des Katalog-Explorers überprüfen und direkt in einem Notebook oder im SQL-Editor auf sie verweisen, indem Sie das <catalog-name>.<schema-name>.<table-name>-Muster verwenden.

Das nyctaxi-Schema (auch als Datenbank bekannt) enthält die Tabelle trips, in der Einzelheiten über Taxifahrten in New York City gespeichert sind. Die folgende Anweisung gibt die ersten 10 Datensätze in dieser Tabelle zurück:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Das tpch-Schema enthält Daten aus der TPC-H-Benchmark. Führen Sie zum Auflisten der Tabellen in diesem Schema Folgendes aus:

SHOW TABLES IN samples.tpch

Databricks-Datasets (databricks-datasets)

Azure Databricks enthält eine Vielzahl von Beispielsdatasets, die in DBFS eingebunden sind.

Hinweis

Die Verfügbarkeit und der Speicherort von Databricks-Datasets können ohne Ankündigung geändert werden.

Durchsuchen von Databricks-Datasets

Zum Durchsuchen dieser Dateien aus einem Python-, Scala- oder R-Notebook können Sie die Referenz zu Databricks-Hilfsprogrammen (dbutils) verwenden. Der folgende Code listet alle verfügbaren Databricks-Datasets auf.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Abrufen von Informationen zu Databricks-Datasets

Im folgenden Codebeispiel wird gezeigt, wie Sie mithilfe einer API für lokale Dateien das Databricks-Dataset README (sofern verfügbar) mit einem Python-, R- oder Scala-Notebook ausdrucken, um weitere Informationen zu einem Dataset abzurufen.

Python

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())

Scala

scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}

R

library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

Erstellen einer Tabelle basierend auf einem Databricks-Dataset

In diesem Codebeispiel wird veranschaulicht, wie Sie SQL im SQL-Editor verwenden oder SQL-, Python-, Scala- oder R-Notebooks verwenden, um eine Tabelle basierend auf einem Databricks-Dataset zu erstellen:

SQL

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')

Python

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Scala

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

R

library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Beispieldatasets von Drittanbietern im CSV-Format

Azure Databricks verfügt über integrierte Tools zum schnellen Hochladen von Beispieldatasets von Drittanbietern als CSV-Dateien (durch Trennzeichen getrennte Werte) in Azure Databricks-Arbeitsbereiche. Dies sind einige beliebte Beispieldatasets von Drittanbietern, die im CSV-Format verfügbar sind:

Beispieldataset So laden Sie das Beispieldataset als CSV-Datei herunter...
Squirrel Census Klicken Sie auf der Webseite Data auf Park Data,
Squirrel Data oder Stories.
OWID-Datasetsammlung Klicken Sie im GitHub-Repository auf den Ordner datasets. Klicken Sie auf den Unterordner, der das Zieldataset enthält, und klicken Sie dann auf die CSV-Datei des Datasets.
Data.gov-CSV-Datasets Klicken Sie auf der Webseite mit den Suchergebnissen auf das Zielsuchergebnis, und klicken Sie neben dem CSV-Symbol auf Download.
Diamonds (erfordert ein Kaggle-Konto) Klicken Sie auf der Webseite des Datasets auf der Registerkarte Data auf der Registerkarte Data neben diamonds.csv auf das Downloadsymbol.
NYC Taxi Trip Duration (erfordert ein Kaggle-Konto) Klicken Sie auf der Webseite des Datasets auf der Registerkarte Data neben sample_submission.zip auf das
Downloadsymbol. Um die CSV-Dateien des Datasets zu finden, extrahieren Sie den Inhalt der heruntergeladenen ZIP-Datei.
UFO Sightings (erfordert ein data.world-Konto) Klicken Sie auf der Webseite des Datasets neben
nuforc_reports.csv auf das Downloadsymbol.

Gehen Sie wie folgt vor, um Beispieldatasets von Drittanbietern in Ihrem Azure Databricks-Arbeitsbereich zu verwenden:

  1. Folgen Sie den Anweisungen des Drittanbieters, um das Dataset als CSV-Datei auf Ihren lokalen Computer herunterzuladen.
  2. Laden Sie die CSV-Datei von Ihrem lokalen Computer in Ihren Azure Databricks-Arbeitsbereich hoch.
  3. Um mit den importierten Daten zu arbeiten, verwenden Sie Databricks SQL, um die Daten abzufragen. Sie können auch ein Notebook verwenden, um die Daten als DataFrame zu laden.

Beispieldatasets von Drittanbietern in Bibliotheken

Einige Drittanbieter enthalten Beispieldatasets in Bibliotheken, z. B. PyPI-Pakete (Python Package Index) oder CRAN-Pakete (Comprehensive R Archive Network). Weitere Informationen finden Sie in der Dokumentation des Bibliotheksanbieters.