Örnek veri kümeleri

Azure Databricks tarafından sağlanan ve Azure Databricks çalışma alanınızda kullanabileceğiniz üçüncü taraflar tarafından kullanıma sunulan çeşitli örnek veri kümeleri vardır.

Unity Katalog veri kümeleri

Unity Kataloğu, samples kataloğundaki bir dizi örnek veri kümesine erişim sağlar. Bu veri kümelerini Katalog Gezgini arabiriminde gözden geçirebilir, desenini kullanarak doğrudan bir not defterine veya <catalog-name>.<schema-name>.<table-name> başvurabilirsiniz.

Aşağıdaki tabloda katalogdaki samples kullanılabilir şemalar listelenmiştir:

Veri kümesi Açıklama
nyctaxi New York Şehri için taksi gezisi kayıtları.
tpch TPC-H Benchmark'dan büyük ölçekli veri kümesi (yaklaşık 1 TB).
tpcds_sf1 TPC-DS karşılaştırmasından küçük ölçekli veri kümesi (yaklaşık 1 GB).
wanderbricks Kullanıcılar, tesisler, rezervasyonlar, incelemeler ve daha fazlasını içeren simülasyonlu bir seyahat rezervasyon platformu.

New York taksi hizmeti (nyctaxi)

Şema, nyctaxi New York'taki taksi yolculuklarıyla ilgili ayrıntıları içeren tablosunu tripsiçerir. Aşağıdaki örnek, bu tablodaki ilk 10 kaydı döndürür:

SQL

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Piton

display(spark.read.table("samples.nyctaxi.trips").limit(10))

tpch

tpch şeması, TPC-H Benchmarkverilerini içerir. Bu şemadaki tabloları listelemek için şunu çalıştırın:

SQL

SHOW TABLES IN samples.tpch

Piton

display(spark.sql("SHOW TABLES IN samples.tpch"))

tpcds_sf1

Şema, tpcds_sf1TPC-DS karşılaştırmasından verileri içerir. Bu şemadaki tabloları listelemek için şunu çalıştırın:

SQL

SHOW TABLES IN samples.tpcds_sf1;

Piton

display(spark.sql("SHOW TABLES IN samples.tpcds_sf1"))

Sistem performansını değerlendirmek için bu veri kümesini kullanma hakkında daha fazla kılavuz için bkz. Sistem performansını değerlendirmek için TPC-DS örnek veri kümesini kullanma.

wanderbricks

Şema, wanderbricks sanal bir seyahat rezervasyon platformu veri kümesi içerir. Veri kümesi tabloları hakkında wanderbricks ayrıntılı bilgi için bkz . Wanderbricks veri kümesi.

CSV biçiminde üçüncü taraf örnek veri kümeleri

Azure Databricks, üçüncü taraf örnek veri kümelerini virgülle ayrılmış değerler (CSV) dosyaları olarak Azure Databricks çalışma alanlarına hızla yüklemek için yerleşik araçlara sahiptir. CSV biçiminde kullanılabilen bazı popüler üçüncü taraf örnek veri kümeleri:

Örnek veri kümesi Örnek veri kümesini CSV dosyası olarak indirmek için...
Sincap Nüfus Sayımı Veri web sayfasında Veri Park Et seçeneğine tıklayın.
Sincap Verileri veya Hikayeler.
OWID Veri Kümesi Koleksiyonu GitHub deposunda veri kümeleri klasörüne tıklayın. Hedef veri kümesini içeren alt klasöre tıklayın ve ardından veri kümesinin CSV dosyasına tıklayın.
Data.gov CSV veri kümeleri Arama sonuçları web sayfasında hedef arama sonucuna tıklayın ve CSV simgesinin yanında İndir'e tıklayın.
Elmaslar (Kaggle hesabı gerektirir) Veri kümesinin web sayfasındaki Veri sekmesinde, Veri sekmesinde ,diamonds.csv'nin yanındaki İndir simgesine tıklayın.
NYC Taksi Yolculuğu Süresi (Kaggle hesabı gerektirir) Veri kümesinin web sayfasında, Veri sekmesinde, sample_submission.zip yanındaki yere tıklayın.
İndir simgesi. Veri kümesinin CSV dosyalarını bulmak için indirilen ZIP dosyasının içeriğini ayıklar.

Azure Databricks çalışma alanınızda üçüncü taraf örnek veri kümelerini kullanmak için aşağıdakileri yapın:

  1. Veri kümesini yerel makinenize CSV dosyası olarak indirmek için üçüncü tarafın yönergelerini izleyin.
  2. CSV dosyasını yerel makinenizden Azure Databricks çalışma alanınıza yükleyin.
  3. İçeri aktarılan verilerle çalışmak için Databricks SQL'i kullanarak verileri sorgular. Ya da verileri DataFrame olarak yüklemek için bir not defteri kullanabilirsiniz.

Kitaplıklar içindeki üçüncü taraf örnek veri kümeleri

Bazı üçüncü taraflar, Python Paket Dizini (PyPI) paketleri veya Kapsamlı R Arşiv Ağı (CRAN) paketleri gibi kitaplıklar içindeki örnek veri kümelerini içerir. Daha fazla bilgi için kitaplık sağlayıcısının belgelerine bakın.

DBFS'ye montaj edilmiş Databricks veri kümeleri (databricks-datasets)

Azure Databricks, Unity Kataloğu özellikli Databricks çalışma alanlarında çoğu senaryo için DBFS ve bağlı bulut nesne depolamasının kullanılmamasını önerir. DBFS'ye bağlı bazı örnek veri kümeleri Azure Databricks'te kullanılabilir

Not

Databricks veri kümelerinin kullanılabilirliği ve konumu bildirimde bulunmaksızın değiştirilebilir.

DBFS'ye bağlı Databricks veri kümelerine göz atın

Python, Scala veya R notebook uygulamasından bu dosyalara göz atmak için dbutils kullanabilirsiniz. Aşağıdaki kod tüm kullanılabilir Databricks veri kümelerini listeler.

Piton

display(dbutils.fs.ls('/databricks-datasets'))

Scala programlama dili

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"