Sampel himpunan data
Ada berbagai himpunan data sampel yang disediakan oleh Azure Databricks dan disediakan oleh pihak ketiga yang dapat Anda gunakan di ruang kerja Azure Databricks Anda.
Himpunan data Unity Catalog
Unity Catalog menyediakan akses ke sejumlah himpunan data sampel dalam samples
katalog. Anda dapat meninjau himpunan data ini di UI Catalog Explorer dan mereferensikannya langsung di notebook atau di editor SQL dengan menggunakan <catalog-name>.<schema-name>.<table-name>
pola .
nyctaxi
Skema (juga dikenal sebagai database) berisi tabel trips
, yang memiliki detail tentang naik taksi di New York City. Pernyataan berikut mengembalikan 10 rekaman pertama dalam tabel ini:
SELECT * FROM samples.nyctaxi.trips LIMIT 10
tpch
Skema berisi data dari Tolok Ukur TPC-H. Untuk mencantumkan tabel dalam skema ini, jalankan:
SHOW TABLES IN samples.tpch
Himpunan data Databricks (databricks-datasets)
Azure Databricks menyertakan berbagai himpunan data sampel yang dipasang ke DBFS.
Catatan
Ketersediaan dan lokasi himpunan data Databricks dapat berubah tanpa pemberitahuan.
Menelusuri himpunan data Azure Databricks
Untuk menelusuri file-file ini dari buku catatan Python, Scala, atau R, Anda dapat menggunakan referensi Utilitas (dbutil) Databricks. Kode berikut mencantumkan semua himpunan data Databricks yang tersedia.
Python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"
Mendapatkan informasi tentang himpunan data Databricks
Untuk mendapatkan informasi selengkapnya tentang himpunan data Databricks, Anda dapat menggunakan API file lokal untuk mencetak himpunan README
data (jika tersedia) dengan menggunakan notebook Python, R, atau Scala, seperti yang ditunjukkan dalam contoh kode ini.
Python
f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())
Scala
scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
print
}
R
library(readr)
f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)
Membuat tabel berdasarkan himpunan data Databricks
Contoh kode ini menunjukkan cara menggunakan SQL di editor SQL, atau cara menggunakan notebook SQL, Python, Scala, atau R, untuk membuat tabel berdasarkan himpunan data Databricks:
SQL
CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')
Python
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
Scala
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
R
library(SparkR)
sparkR.session()
sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
Himpunan data sampel pihak ketiga dalam format CSV
Azure Databricks memiliki alat bawaan untuk mengunggah himpunan data sampel pihak ketiga dengan cepat sebagai file nilai yang dipisahkan koma (CSV) ke ruang kerja Azure Databricks. Beberapa himpunan data sampel pihak ketiga populer yang tersedia dalam format CSV:
Sampel himpunan data | Untuk mengunduh himpunan data sampel sebagai file CSV... |
---|---|
Sensus Tupai | Pada halaman web Data , klik Park Data, Data Tupai, atau Cerita. |
Pengumpulan Himpunan Data OWID | Di repositori GitHub, klik folder himpunan data. Klik subfolder yang berisi himpunan data target, lalu klik file CSV himpunan data. |
Data.gov himpunan data CSV | Pada halaman web hasil pencarian, klik hasil pencarian target, dan di samping ikon CSV , klik Unduh. |
Berlian (Memerlukan akun Kaggle ) | Pada halaman web himpunan data, pada tab Data , pada tab Data , di samping diamonds.csv, klik ikon Unduh . |
Durasi Perjalanan Taksi NYC (Memerlukan akun Kaggle ) | Pada halaman web himpunan data, pada tab Data , di samping sample_submission.zip, klik Ikon Unduh . Untuk menemukan file CSV himpunan data, ekstrak konten file ZIP yang diunduh. |
Penampakan UFO (Memerlukan akun data.world ) | Pada halaman web himpunan data, di samping nuforc_reports.csv, klik ikon Unduh. |
Untuk menggunakan himpunan data sampel pihak ketiga di ruang kerja Azure Databricks Anda, lakukan hal berikut:
- Ikuti instruksi pihak ketiga untuk mengunduh himpunan data sebagai file CSV ke komputer lokal Anda.
- Unggah file CSV dari komputer lokal Anda ke ruang kerja Azure Databricks Anda.
- Untuk bekerja dengan data yang diimpor, gunakan Databricks SQL untuk mengkueri data. Atau Anda bisa menggunakan buku catatan untuk memuat data sebagai DataFrame.
Himpunan data sampel pihak ketiga dalam pustaka
Beberapa pihak ketiga menyertakan himpunan data sampel dalam pustaka, seperti paket Python Package Index (PyPI) atau paket Comprehensive R Archive Network (CRAN). Untuk informasi selengkapnya, lihat dokumentasi penyedia pustaka.
- Untuk menginstal pustaka pada kluster Azure Databricks dengan menggunakan antarmuka pengguna kluster, lihat Pustaka kluster.
- Untuk menginstal pustaka Python dengan menggunakan buku catatan Azure Databricks, lihat Pustaka Python dengan cakupan buku catatan.
- Untuk menginstal pustaka R dengan menggunakan buku catatan Azure Databricks, lihat Pustaka R lingkup buku catatan.