Delen via


Voorbeeldgegevenssets

Er zijn verschillende voorbeeldgegevenssets van Azure Databricks en beschikbaar gesteld door derden die u kunt gebruiken in uw Azure Databricks-werkruimte.

Unity Catalog-gegevenssets

Unity Catalog biedt toegang tot een aantal voorbeeldgegevenssets in de samples catalogus. U kunt deze gegevenssets bekijken in de gebruikersinterface van Catalog Explorer en deze rechtstreeks in een notebook of in de SQL-editor verwijzen met behulp van het <catalog-name>.<schema-name>.<table-name> patroon.

Het nyctaxi schema (ook wel een database genoemd) bevat de tabel trips, met details over taxiritten in New York City. Met de volgende instructie worden de eerste 10 records in deze tabel geretourneerd:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Het tpch schema bevat gegevens uit de TPC-H-benchmark. Voer de volgende opdracht uit om de tabellen in dit schema weer te geven:

SHOW TABLES IN samples.tpch

Databricks-gegevenssets (databricks-datasets)

Azure Databricks bevat verschillende voorbeeldgegevenssets die zijn gekoppeld aan DBFS.

Notitie

De beschikbaarheid en locatie van Databricks-gegevenssets kunnen zonder kennisgeving worden gewijzigd.

Bladeren door Databricks-gegevenssets

Als u door deze bestanden wilt bladeren vanuit een Python-, Scala- of R-notebook, kunt u de Databricks Utilities-verwijzing (dbutils) gebruiken. De volgende code bevat alle beschikbare Databricks-gegevenssets.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Informatie ophalen over Databricks-gegevenssets

Voor meer informatie over een Databricks-gegevensset kunt u een API voor lokaal bestand gebruiken om de gegevensset README (indien beschikbaar) af te drukken met behulp van een Python-, R- of Scala-notebook, zoals wordt weergegeven in dit codevoorbeeld.

Python

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())

Scala

scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}

R

library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

Een tabel maken op basis van een Databricks-gegevensset

In dit codevoorbeeld ziet u hoe u SQL gebruikt in de SQL-editor of hoe u SQL-, Python-, Scala- of R-notebooks gebruikt om een tabel te maken op basis van een Databricks-gegevensset:

SQL

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')

Python

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Scala

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

R

library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Voorbeeldgegevenssets van derden in CSV-indeling

Azure Databricks heeft ingebouwde hulpprogramma's om snel voorbeeldgegevenssets van derden te uploaden als csv-bestanden (door komma's gescheiden waarden) naar Azure Databricks-werkruimten. Enkele populaire voorbeeldgegevenssets van derden die beschikbaar zijn in CSV-indeling:

Voorbeeldgegevensset De voorbeeldgegevensset downloaden als een CSV-bestand...
De eekhoorn volkstelling Klik op de webpagina Gegevens op Park Data,
Eekhoorngegevens of Verhalen.
OWID-gegevenssetverzameling Klik in de GitHub-opslagplaats op de map gegevenssets . Klik op de submap met de doelgegevensset en klik vervolgens op het CSV-bestand van de gegevensset.
DATA.GOV CSV-gegevenssets Klik op de webpagina met zoekresultaten op het doelzoekresultaat en klik naast het CSV-pictogram op Downloaden.
Diamanten (vereist een Kaggle-account ) Klik op de webpagina van de gegevensset, op het tabblad Gegevens, op het tabblad Gegevens, naast diamonds.csv, op het pictogram Downloaden.
Duur van taxirit nyc (vereist een Kaggle-account ) Klik op de webpagina van de gegevensset op het tabblad Gegevens naast sample_submission.zip op de knop
Downloadpictogram . Als u de CSV-bestanden van de gegevensset wilt zoeken, extraheert u de inhoud van het gedownloade ZIP-bestand.
UFO-waarnemingen (hiervoor is een data.world-account vereist) Op de webpagina van de gegevensset, naast
nuforc_reports.csv klikt u op het pictogram Downloaden.

Ga als volgt te werk om voorbeeldgegevenssets van derden te gebruiken in uw Azure Databricks-werkruimte:

  1. Volg de instructies van derden om de gegevensset als EEN CSV-bestand te downloaden naar uw lokale computer.
  2. Upload het CSV-bestand vanaf uw lokale computer naar uw Azure Databricks-werkruimte.
  3. Als u met de geïmporteerde gegevens wilt werken, gebruikt u Databricks SQL om een query uit te voeren op de gegevens. U kunt ook een notebook gebruiken om de gegevens als een DataFrame te laden.

Voorbeeldgegevenssets van derden in bibliotheken

Sommige derden bevatten voorbeeldgegevenssets in bibliotheken, zoals PyPI-pakketten (Python Package Index) of Uitgebreide R Archive Network-pakketten (CRAN). Zie de documentatie van de bibliotheekprovider voor meer informatie.