Mintaadatkészletek

Cikk
03/01/2024

Az Azure Databricks számos mintaadatkészletet biztosít, amelyeket harmadik felek bocsátanak rendelkezésre, amelyeket az Azure Databricks-munkaterületen használhat.

Unity Catalog-adatkészletek

A Unity Catalog számos mintaadatkészlethez biztosít hozzáférést a samples katalógusban. Ezeket az adathalmazokat a Katalóguskezelő felhasználói felületén tekintheti át, és a mintával közvetlenül egy jegyzetfüzetben vagy az SQL-szerkesztőben<catalog-name>.<schema-name>.<table-name> hivatkozhat rájuk.

A nyctaxi séma (más néven adatbázis) tartalmazza a táblát trips, amely a New York-i taxiútokkal kapcsolatos részleteket tartalmazza. Az alábbi utasítás a tábla első 10 rekordjának értékét adja vissza:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

A tpch séma a TPC-H benchmarkból származó adatokat tartalmaz. A séma tábláinak listázásához futtassa a következőt:

SHOW TABLES IN samples.tpch

Databricks-adathalmazok (databricks-datasets)

Az Azure Databricks számos dbFS-hez csatlakoztatott mintaadatkészletet tartalmaz.

Feljegyzés

A Databricks-adathalmazok elérhetősége és helye értesítés nélkül változhat.

Databricks-adathalmazok tallózása

Ha Python-, Scala- vagy R-jegyzetfüzetből szeretné böngészni ezeket a fájlokat, használhatja a Databricks Utilities (dbutils) referenciáját. Az alábbi kód felsorolja az összes elérhető Databricks-adatkészletet.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Adatok lekérése a Databricks-adathalmazokról

A Databricks-adatkészletekkel kapcsolatos további információkért egy helyi fájl API-val kinyomtathatja az adathalmazt README (ha van ilyen) egy Python-, R- vagy Scala-jegyzetfüzet használatával, ahogyan az ebben a kód példában látható.

Python

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())

Scala

scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}

R

library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

Tábla létrehozása Databricks-adatkészlet alapján

Ez a példakód bemutatja, hogyan használható az SQL az SQL-szerkesztőben, illetve hogyan használható SQL-, Python-, Scala- vagy R-jegyzetfüzetek egy Databricks-adatkészleten alapuló tábla létrehozásához:

SQL

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')

Python

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Scala

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

R

library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Külső mintaadatkészletek CSV formátumban

Az Azure Databricks beépített eszközökkel gyorsan feltölthet külső mintaadatkészleteket vesszővel tagolt értékek (CSV) fájlokként az Azure Databricks-munkaterületekre. Néhány népszerű, harmadik féltől származó mintaadatkészlet, amely CSV formátumban érhető el:

Mintaadatkészlet	A mintaadatkészlet CSV-fájlként való letöltéséhez...
A Mókus-összeírás	Az Adatok weblapon kattintson az Adatok parkja elemre, Mókusadatok vagy történetek.
OWID-adatkészlet-gyűjtemény	A GitHub-adattárban kattintson az adathalmazok mappára. Kattintson a céladatkészletet tartalmazó almappára, majd az adathalmaz CSV-fájljára.
CSV-adatkészletek Data.gov	A keresési eredmények weblapján kattintson a célkeresési eredményre, majd a CSV ikon mellett kattintson a Letöltés gombra.
Rombuszok (Kaggle-fiókot igényel)	Az adathalmaz weblapján, az Adatok lapon, az Adatok lap diamonds.csv mellett kattintson a Letöltés ikonra.
NYC taxiút időtartama (Kaggle-fiók szükséges)	Az adathalmaz weblapján, az Adatok lap sample_submission.zip mellett kattintson a Letöltés ikon. Az adathalmaz CSV-fájljainak megkereséséhez kinyeri a letöltött ZIP-fájl tartalmát.
UFO-észlelések (data.world fiókot igényel)	Az adathalmaz weblapján, a következő mellett: nuforc_reports.csv kattintson a Letöltés ikonra.

Ha külső mintaadatkészleteket szeretne használni az Azure Databricks-munkaterületen, tegye a következőket:

A külső fél utasításait követve töltse le az adathalmazt CSV-fájlként a helyi gépére.
Töltse fel a CSV-fájlt a helyi gépről az Azure Databricks-munkaterületre.
Az importált adatok használatához használja a Databricks SQL-t az adatok lekérdezéséhez. Vagy egy jegyzetfüzet használatával betöltheti az adatokat DataFrame-ként.

Külső mintaadatkészletek a kódtárakban

Egyes harmadik felek kódtárakon belüli mintaadatkészleteket tartalmaznak, például Python-csomagindex-csomagokat (PyPI- vagy Átfogó R Archive Network-csomagokat). További információkért tekintse meg a könyvtárszolgáltató dokumentációját.

Ha egy Azure Databricks-fürtre szeretne kódtárat telepíteni a fürt felhasználói felületének használatával, tekintse meg a fürttárakat.
Python-kódtár Azure Databricks-jegyzetfüzet használatával történő telepítéséhez tekintse meg a jegyzetfüzet-hatókörű Python-kódtárakat.
Ha R-kódtárat szeretne telepíteni egy Azure Databricks-jegyzetfüzet használatával, tekintse meg a Jegyzetfüzet hatókörű R-kódtárakat.

Mintaadatkészletek

Unity Catalog-adatkészletek

Databricks-adathalmazok (databricks-datasets)

Databricks-adathalmazok tallózása

Python

Scala

R

Adatok lekérése a Databricks-adathalmazokról

Python

Scala

R

Tábla létrehozása Databricks-adatkészlet alapján

SQL

Python

Scala

R

Külső mintaadatkészletek CSV formátumban

Külső mintaadatkészletek a kódtárakban

További források