Sampel himpunan data

Ada berbagai himpunan data sampel yang disediakan oleh Azure Databricks dan disediakan oleh pihak ketiga yang dapat Anda gunakan di ruang kerja Azure Databricks Anda.

Himpunan data dari Unity Catalog

Unity Catalog menyediakan akses ke sejumlah himpunan data sampel dalam samples katalog. Anda dapat meninjau himpunan data ini di UI Catalog Explorer dan mereferensikannya langsung di notebook atau di editor SQL dengan menggunakan <catalog-name>.<schema-name>.<table-name> pola .

Tabel berikut mencantumkan skema yang tersedia dalam samples katalog:

Kumpulan Data	Deskripsi
`nyctaxi`	Catatan perjalanan taksi di New York City.
`tpch`	Himpunan data skala besar (sekitar 1 TB) dari TPC-H Benchmark.
`tpcds_sf1`	Himpunan data skala kecil (sekitar 1 GB) dari benchmark TPC-DS.
`wanderbricks`	Platform pemesanan perjalanan yang disimulasikan dengan pengguna, properti, pemesanan, ulasan, dan banyak lagi.

nyctaxi

nyctaxi Skema berisi tabel trips, yang memiliki detail tentang naik taksi di New York City. Contoh berikut mengembalikan 10 rekaman pertama dalam tabel ini:

SQL

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Phyton

display(spark.read.table("samples.nyctaxi.trips").limit(10))

tpch

tpch Skema mengandung data dari Tolok Ukur TPC-H. Untuk mencantumkan tabel dalam skema ini, jalankan:

SQL

SHOW TABLES IN samples.tpch

Phyton

display(spark.sql("SHOW TABLES IN samples.tpch"))

tpcds_sf1

tpcds_sf1 Skema berisi data dari tolok ukur TPC-DS. Untuk mencantumkan tabel dalam skema ini, jalankan:

SQL

SHOW TABLES IN samples.tpcds_sf1;

Phyton

display(spark.sql("SHOW TABLES IN samples.tpcds_sf1"))

Untuk panduan selengkapnya tentang cara menggunakan himpunan data ini untuk mengevaluasi performa sistem, lihat Menggunakan himpunan data sampel TPC-DS untuk mengevaluasi performa sistem.

wanderbricks

Skema ini wanderbricks berisi himpunan data platform pemesanan perjalanan yang disimulasikan. Untuk detail tentang tabel himpunan wanderbricks data, lihat himpunan data Wanderbricks.

Himpunan data sampel pihak ketiga dalam format CSV

Azure Databricks memiliki alat bawaan untuk mengunggah himpunan data sampel pihak ketiga dengan cepat sebagai file nilai yang dipisahkan koma (CSV) ke ruang kerja Azure Databricks. Beberapa himpunan data sampel pihak ketiga populer yang tersedia dalam format CSV:

Sampel dataset	Untuk mengunduh himpunan data sampel sebagai file CSV...
Sensus Tupai	Pada halaman Data, klik Park Data, Data Squirrel, atau Cerita.
Pengumpulan Himpunan Data OWID	Di repositori GitHub, klik folder datasets. Klik subfolder yang berisi himpunan data target, lalu klik file CSV himpunan data.
Himpunan data CSV Data.gov	Pada halaman web hasil pencarian, klik hasil pencarian target, dan di samping ikon CSV , klik Unduh.
Berlian (Memerlukan akun Kaggle )	Pada halaman web himpunan data, pada tab Data , pada tab Data , di samping diamonds.csv, klik ikon Unduh .
Durasi Perjalanan Taksi NYC (Memerlukan akun Kaggle )	Pada halaman web himpunan data, pada tab Data, di samping sample_submission.zip, klik Ikon Unduh . Untuk menemukan file CSV himpunan data, ekstrak konten file ZIP yang diunduh.

Untuk menggunakan himpunan data sampel pihak ketiga di ruang kerja Azure Databricks Anda, lakukan hal berikut:

Ikuti instruksi pihak ketiga untuk mengunduh himpunan data sebagai file CSV ke komputer lokal Anda.
Unggah file CSV dari komputer lokal Anda ke ruang kerja Azure Databricks Anda.
Untuk bekerja dengan data yang diimpor, gunakan Databricks SQL untuk mengkueri data. Atau Anda bisa menggunakan buku catatan untuk memuat data sebagai DataFrame.

Himpunan data sampel pihak ketiga dalam pustaka

Beberapa pihak ketiga menyertakan himpunan data sampel dalam pustaka, seperti paket Python Package Index (PyPI) atau paket Comprehensive R Archive Network (CRAN). Untuk informasi selengkapnya, lihat dokumentasi penyedia pustaka.

Untuk menginstal pustaka pada kluster Azure Databricks dengan menggunakan antarmuka pengguna kluster, lihat Pustaka cakupan komputasi.
Untuk menginstal pustaka Python dengan menggunakan notebook Azure Databricks, lihat pustaka Python yang dibatasi notebook.
Untuk menginstal pustaka R dengan menggunakan notebook Azure Databricks, lihat Pustaka R dengan Ruang Lingkup Notebook.

Himpunan data Databricks (databricks-datasets) yang dipasang ke DBFS

Azure Databricks merekomendasikan untuk tidak menggunakan DBFS dan penyimpanan objek cloud yang dipasang untuk sebagian besar kasus penggunaan di ruang kerja Databricks yang diaktifkan dengan Unity Catalog. Beberapa himpunan data sampel yang dipasang ke DBFS tersedia di Azure Databricks

Catatan

Ketersediaan dan lokasi himpunan data Databricks dapat berubah tanpa pemberitahuan.

Telusuri himpunan data Databricks yang dikaitkan dengan DBFS

Untuk menelusuri file-file ini dari buku catatan Python, Scala, atau R, Anda dapat menggunakan referensi Utilitas Databricks (dbutils). Kode berikut mencantumkan semua himpunan data Databricks yang tersedia.

Phyton

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2026-03-31

Sampel himpunan data

Himpunan data dari Unity Catalog

nyctaxi

SQL

Phyton

tpch

SQL

Phyton

tpcds_sf1

SQL

Phyton

wanderbricks

Himpunan data sampel pihak ketiga dalam format CSV

Himpunan data sampel pihak ketiga dalam pustaka

Himpunan data Databricks (databricks-datasets) yang dipasang ke DBFS

Telusuri himpunan data Databricks yang dikaitkan dengan DBFS

Phyton

Scala

R

Saran dan Komentar

Sumber Daya Tambahan: