Voorbeeldgegevenssets
Er zijn verschillende voorbeeldgegevenssets van Azure Databricks en beschikbaar gesteld door derden die u kunt gebruiken in uw Azure Databricks-werkruimte.
Unity Catalog-gegevenssets
Unity Catalog biedt toegang tot een aantal voorbeeldgegevenssets in de samples
catalogus. U kunt deze gegevenssets bekijken in de gebruikersinterface van Catalog Explorer en deze rechtstreeks in een notebook of in de SQL-editor verwijzen met behulp van het <catalog-name>.<schema-name>.<table-name>
patroon.
Het nyctaxi
schema (ook wel een database genoemd) bevat de tabel trips
, met details over taxiritten in New York City. Met de volgende instructie worden de eerste 10 records in deze tabel geretourneerd:
SELECT * FROM samples.nyctaxi.trips LIMIT 10
Het tpch
schema bevat gegevens uit de TPC-H-benchmark. Voer de volgende opdracht uit om de tabellen in dit schema weer te geven:
SHOW TABLES IN samples.tpch
Databricks-gegevenssets (databricks-datasets)
Azure Databricks bevat verschillende voorbeeldgegevenssets die zijn gekoppeld aan DBFS.
Notitie
De beschikbaarheid en locatie van Databricks-gegevenssets kunnen zonder kennisgeving worden gewijzigd.
Bladeren door Databricks-gegevenssets
Als u door deze bestanden wilt bladeren vanuit een Python-, Scala- of R-notebook, kunt u de Databricks Utilities-verwijzing (dbutils) gebruiken. De volgende code bevat alle beschikbare Databricks-gegevenssets.
Python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"
Informatie ophalen over Databricks-gegevenssets
Voor meer informatie over een Databricks-gegevensset kunt u een API voor lokaal bestand gebruiken om de gegevensset README
(indien beschikbaar) af te drukken met behulp van een Python-, R- of Scala-notebook, zoals wordt weergegeven in dit codevoorbeeld.
Python
f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())
Scala
scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
print
}
R
library(readr)
f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)
Een tabel maken op basis van een Databricks-gegevensset
In dit codevoorbeeld ziet u hoe u SQL gebruikt in de SQL-editor of hoe u SQL-, Python-, Scala- of R-notebooks gebruikt om een tabel te maken op basis van een Databricks-gegevensset:
SQL
CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')
Python
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
Scala
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
R
library(SparkR)
sparkR.session()
sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
Voorbeeldgegevenssets van derden in CSV-indeling
Azure Databricks heeft ingebouwde hulpprogramma's om snel voorbeeldgegevenssets van derden te uploaden als csv-bestanden (door komma's gescheiden waarden) naar Azure Databricks-werkruimten. Enkele populaire voorbeeldgegevenssets van derden die beschikbaar zijn in CSV-indeling:
Voorbeeldgegevensset | De voorbeeldgegevensset downloaden als een CSV-bestand... |
---|---|
De eekhoorn volkstelling | Klik op de webpagina Gegevens op Park Data, Eekhoorngegevens of Verhalen. |
OWID-gegevenssetverzameling | Klik in de GitHub-opslagplaats op de map gegevenssets . Klik op de submap met de doelgegevensset en klik vervolgens op het CSV-bestand van de gegevensset. |
DATA.GOV CSV-gegevenssets | Klik op de webpagina met zoekresultaten op het doelzoekresultaat en klik naast het CSV-pictogram op Downloaden. |
Diamanten (vereist een Kaggle-account ) | Klik op de webpagina van de gegevensset, op het tabblad Gegevens, op het tabblad Gegevens, naast diamonds.csv, op het pictogram Downloaden. |
Duur van taxirit nyc (vereist een Kaggle-account ) | Klik op de webpagina van de gegevensset op het tabblad Gegevens naast sample_submission.zip op de knop Downloadpictogram . Als u de CSV-bestanden van de gegevensset wilt zoeken, extraheert u de inhoud van het gedownloade ZIP-bestand. |
UFO-waarnemingen (hiervoor is een data.world-account vereist) | Op de webpagina van de gegevensset, naast nuforc_reports.csv klikt u op het pictogram Downloaden. |
Ga als volgt te werk om voorbeeldgegevenssets van derden te gebruiken in uw Azure Databricks-werkruimte:
- Volg de instructies van derden om de gegevensset als EEN CSV-bestand te downloaden naar uw lokale computer.
- Upload het CSV-bestand vanaf uw lokale computer naar uw Azure Databricks-werkruimte.
- Als u met de geïmporteerde gegevens wilt werken, gebruikt u Databricks SQL om een query uit te voeren op de gegevens. U kunt ook een notebook gebruiken om de gegevens als een DataFrame te laden.
Voorbeeldgegevenssets van derden in bibliotheken
Sommige derden bevatten voorbeeldgegevenssets in bibliotheken, zoals PyPI-pakketten (Python Package Index) of Uitgebreide R Archive Network-pakketten (CRAN). Zie de documentatie van de bibliotheekprovider voor meer informatie.
- Zie Clusterbibliotheken als u een bibliotheek wilt installeren op een Azure Databricks-cluster met behulp van de gebruikersinterface van het cluster.
- Als u een Python-bibliotheek wilt installeren met behulp van een Azure Databricks-notebook, raadpleegt u Python-bibliotheken met notebookbereik.
- Als u een R-bibliotheek wilt installeren met behulp van een Azure Databricks-notebook, raadpleegt u R-bibliotheken met notebookbereik.
Feedback
https://aka.ms/ContentUserFeedback.
Binnenkort beschikbaar: In de loop van 2024 zullen we GitHub-problemen geleidelijk uitfaseren als het feedbackmechanisme voor inhoud en deze vervangen door een nieuw feedbacksysteem. Zie voor meer informatie:Feedback verzenden en weergeven voor