Share via


Voorbeeld-databestanden

Er zijn diverse voorbeelddatasets beschikbaar, verstrekt door Azure Databricks en derden, die u kunt gebruiken in uw Azure Databricks-werkruimte.

Unity Catalog-gegevenssets

Unity Catalog biedt toegang tot een aantal voorbeeldgegevenssets in de samples catalogus. U kunt deze gegevenssets bekijken in de gebruikersinterface van Catalog Explorer en deze rechtstreeks in een notebook of in de SQL-editor verwijzen met behulp van het <catalog-name>.<schema-name>.<table-name> patroon.

De volgende tabel bevat de beschikbare schema's in de samples catalogus:

Gegevensset Beschrijving
nyctaxi Taxiritrecords voor New York City.
tpch Grootschalige gegevensset (ongeveer 1 TB) uit de TPC-H Benchmark.
tpcds_sf1 Kleinschalige gegevensset (ongeveer 1 GB) uit de TPC-DS benchmark.
wanderbricks Een gesimuleerd reisboekingsplatform met gebruikers, eigenschappen, boekingen, beoordelingen en meer.

nyc-taxi

Het nyctaxi schema bevat de tabel trips, met details over taxiritten in New York City. Met de volgende instructie worden de eerste 10 records in deze tabel geretourneerd:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

tpch

Het tpch schema bevat gegevens uit de TPC-H-benchmark. Voer de volgende opdracht uit om de tabellen in dit schema weer te geven:

SHOW TABLES IN samples.tpch

tpcds_sf1

Het tpcds_sf1 schema bevat gegevens uit de TPC-DS benchmark. Voer de volgende opdracht uit om de tabellen in dit schema weer te geven:

SHOW TABLES IN samples.tpcds_sf1;

Zie De TPC-DS voorbeeldgegevensset gebruiken om systeemprestaties te evalueren voor meer informatie over het gebruik van deze gegevensset.

wanderbricks

Het wanderbricks schema bevat een gegevensset voor een gesimuleerd reisboekingsplatform. Voor meer informatie over de wanderbricks dataset tabellen, zie Wanderbricks dataset.

Voorbeeld-datasets van derden in CSV-formaat

Azure Databricks heeft ingebouwde hulpprogramma's om snel voorbeeldgegevenssets van derden te uploaden als csv-bestanden (door komma's gescheiden waarden) naar Azure Databricks-werkruimten. Enkele populaire voorbeeldgegevenssets van derden die beschikbaar zijn in CSV-indeling:

Voorbeeld-dataset De voorbeeldgegevensset downloaden als een CSV-bestand...
De eekhoorn volkstelling Klik op de webpagina Gegevens op Park Data,
Eekhoorngegevens of Verhalen.
OWID-gegevenssetverzameling Klik in de GitHub-repository op de map datasets. Klik op de submap met de doelgegevensset en klik vervolgens op het CSV-bestand van de gegevensset.
Data.gov CSV-datasets Klik op de webpagina met zoekresultaten op het doelzoekresultaat en klik naast het CSV-pictogram op Downloaden.
Diamanten (vereist een Kaggle-account ) Klik op de webpagina van de gegevensset, op het tabblad Gegevens , op het tabblad Gegevens , naast diamonds.csv, op het pictogram Downloaden .
Duur van taxirit nyc (vereist een Kaggle-account ) Klik op de webpagina van de gegevensset op het tabblad Gegevens naast sample_submission.zipop de knop
Downloadicoon . Als u de CSV-bestanden van de gegevensset wilt zoeken, extraheert u de inhoud van het gedownloade ZIP-bestand.

Ga als volgt te werk om voorbeeldgegevenssets van derden te gebruiken in uw Azure Databricks-werkruimte:

  1. Volg de instructies van derden om de gegevensset als EEN CSV-bestand te downloaden naar uw lokale computer.
  2. Upload het CSV-bestand vanaf uw lokale computer naar uw Azure Databricks-werkruimte.
  3. Als u met de geïmporteerde gegevens wilt werken, gebruikt u Databricks SQL om een query uit te voeren op de gegevens. U kunt ook een notebook gebruiken om de gegevens als een DataFrame te laden.

Voorbeelddatasets van derden in bibliotheken

Sommige derden bevatten voorbeeldgegevenssets binnen bibliotheken, zoals Python Package Index (PyPI)-pakketten of Comprehensive R Archive Network (CRAN)-pakketten. Zie de documentatie van de bibliotheekprovider voor meer informatie.

  • Als u met behulp van de clustergebruikersinterface een bibliotheek wilt installeren op een Azure Databricks-cluster, raadpleegt u de pagina Bibliotheken met rekenbereik.
  • Een Python-bibliotheek installeren met een Azure Databricks-notebook? Bekijk dan de Python-bibliotheken met notebookscope.
  • Als u een R-bibliotheek wilt installeren met behulp van een Azure Databricks-notebook, zie Notebook-specifieke R-bibliotheken.

Databricks-gegevenssets (databricks-datasets) gekoppeld aan DBFS

Azure Databricks raadt af om DBFS en gekoppelde cloudobjectopslag te gebruiken voor de meeste gebruiksvoorbeelden in Databricks-werkruimten met Unity Catalog ingeschakeld. Sommige voorbeeldgegevenssets die zijn gekoppeld aan DBFS , zijn beschikbaar in Azure Databricks

Notitie

De beschikbaarheid en locatie van Databricks-gegevenssets kunnen zonder kennisgeving worden gewijzigd.

Doorbladeren van Databricks-gegevenssets die zijn gekoppeld aan DBFS

Als u door deze bestanden wilt bladeren vanuit een Python-, Scala- of R-notebook, kunt u databricks Utilities (dbutils) raadplegen. De volgende code bevat alle beschikbare Databricks-gegevenssets.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"