Aracılığıyla paylaş


Örnek veri kümeleri

Azure Databricks tarafından sağlanan ve Azure Databricks çalışma alanınızda kullanabileceğiniz üçüncü taraflar tarafından kullanıma sunulan çeşitli örnek veri kümeleri vardır.

Unity Kataloğu veri kümeleri

Unity Kataloğu , katalogdaki bir dizi örnek veri kümesine samples erişim sağlar. Bu veri kümelerini Katalog Gezgini kullanıcı arabiriminde gözden geçirebilir ve deseni kullanarak doğrudan bir not defterinde veya SQL düzenleyicisinde <catalog-name>.<schema-name>.<table-name> bunlara başvurabilirsiniz.

Şema nyctaxi (veritabanı olarak da bilinir), New York'taki taksi yolculuklarıyla ilgili ayrıntıları içeren tablosunu tripsiçerir. Aşağıdaki deyim, bu tablodaki ilk 10 kaydı döndürür:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Şema, tpch TPC-H Karşılaştırmasından verileri içerir. Bu şemadaki tabloları listelemek için şunu çalıştırın:

SHOW TABLES IN samples.tpch

CSV biçiminde üçüncü taraf örnek veri kümeleri

Azure Databricks, üçüncü taraf örnek veri kümelerini virgülle ayrılmış değerler (CSV) dosyaları olarak Azure Databricks çalışma alanlarına hızla yüklemek için yerleşik araçlara sahiptir. CSV biçiminde kullanılabilen bazı popüler üçüncü taraf örnek veri kümeleri:

Örnek veri kümesi Örnek veri kümesini CSV dosyası olarak indirmek için...
Sincap Nüfus Sayımı Veri web sayfasında Verileri Park Et'e tıklayın.
Sincap Verileri veya Hikayeler.
OWID Veri Kümesi Koleksiyonu GitHub deposunda veri kümeleri klasörüne tıklayın. Hedef veri kümesini içeren alt klasöre tıklayın ve ardından veri kümesinin CSV dosyasına tıklayın.
CSV veri kümelerini Data.gov Arama sonuçları web sayfasında hedef arama sonucuna tıklayın ve CSV simgesinin yanında İndir'e tıklayın.
Elmaslar (Kaggle hesabı gerektirir) Veri kümesinin web sayfasındaki Veri sekmesindeki Veri sekmesinde, diamonds.csv yanındaki İndir simgesine tıklayın.
NYC Taksi Yolculuğu Süresi (Kaggle hesabı gerektirir) Veri kümesinin web sayfasında, Veri sekmesinde, sample_submission.zip yanındaki
İndir simgesi. Veri kümesinin CSV dosyalarını bulmak için indirilen ZIP dosyasının içeriğini ayıklar.

Azure Databricks çalışma alanınızda üçüncü taraf örnek veri kümelerini kullanmak için aşağıdakileri yapın:

  1. Veri kümesini yerel makinenize CSV dosyası olarak indirmek için üçüncü tarafın yönergelerini izleyin.
  2. CSV dosyasını yerel makinenizden Azure Databricks çalışma alanınıza yükleyin.
  3. İçeri aktarılan verilerle çalışmak için Databricks SQL'i kullanarak verileri sorgular. Ya da verileri DataFrame olarak yüklemek için bir not defteri kullanabilirsiniz.

Kitaplıklar içindeki üçüncü taraf örnek veri kümeleri

Bazı üçüncü taraflar, Python Paket Dizini (PyPI) paketleri veya Kapsamlı R Arşiv Ağı (CRAN) paketleri gibi kitaplıklar içindeki örnek veri kümelerini içerir. Daha fazla bilgi için kitaplık sağlayıcısının belgelerine bakın.

DBFS'ye bağlı Databricks veri kümeleri (databricks-datasets)

Azure Databricks, Unity Kataloğu özellikli Databricks çalışma alanlarında çoğu kullanım örneği için DBFS ve bağlı bulut nesne depolaması kullanılmasını önerir. DBFS'ye bağlı bazı örnek veri kümeleri Azure Databricks'te kullanılabilir

Not

Databricks veri kümelerinin kullanılabilirliği ve konumu bildirimde bulunmaksızın değiştirilebilir.

DBFS'ye bağlı Databricks veri kümelerine göz atın

Python, Scala veya R not defterinden bu dosyalara göz atmak için Databricks Yardımcı Programları (dbutils) başvurularını kullanabilirsiniz. Aşağıdaki kod tüm kullanılabilir Databricks veri kümelerini listeler.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"