Voorbeeldgegevenssets

Artikel
05/03/2024

Er zijn verschillende voorbeeldgegevenssets van Azure Databricks en beschikbaar gesteld door derden die u kunt gebruiken in uw Azure Databricks-werkruimte.

Unity Catalog-gegevenssets

Unity Catalog biedt toegang tot een aantal voorbeeldgegevenssets in de samples catalogus. U kunt deze gegevenssets bekijken in de gebruikersinterface van Catalog Explorer en deze rechtstreeks in een notebook of in de SQL-editor verwijzen met behulp van het <catalog-name>.<schema-name>.<table-name> patroon.

Het nyctaxi schema (ook wel een database genoemd) bevat de tabel trips, met details over taxiritten in New York City. Met de volgende instructie worden de eerste 10 records in deze tabel geretourneerd:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Het tpch schema bevat gegevens uit de TPC-H-benchmark. Voer de volgende opdracht uit om de tabellen in dit schema weer te geven:

SHOW TABLES IN samples.tpch

Databricks-gegevenssets (databricks-datasets)

Azure Databricks bevat verschillende voorbeeldgegevenssets die zijn gekoppeld aan DBFS.

Notitie

De beschikbaarheid en locatie van Databricks-gegevenssets kunnen zonder kennisgeving worden gewijzigd.

Bladeren door Databricks-gegevenssets

Als u door deze bestanden wilt bladeren vanuit een Python-, Scala- of R-notebook, kunt u de Databricks Utilities-verwijzing (dbutils) gebruiken. De volgende code bevat alle beschikbare Databricks-gegevenssets.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Informatie ophalen over Databricks-gegevenssets

Voor meer informatie over een Databricks-gegevensset kunt u een API voor lokaal bestand gebruiken om de gegevensset README (indien beschikbaar) af te drukken met behulp van een Python-, R- of Scala-notebook, zoals wordt weergegeven in dit codevoorbeeld.

Python

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())

Scala

scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}

R

library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

Een tabel maken op basis van een Databricks-gegevensset

In dit codevoorbeeld ziet u hoe u SQL gebruikt in de SQL-editor of hoe u SQL-, Python-, Scala- of R-notebooks gebruikt om een tabel te maken op basis van een Databricks-gegevensset:

SQL

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')

Python

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Scala

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

R

library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")