Pilihan format data

Azure Databricks memiliki pengikatan kata kunci bawaan untuk semua format data yang didukung secara asli oleh Apache Spark. Azure Databricks menggunakan Delta Lake sebagai protokol default untuk membaca dan menulis data dan tabel, sedangkan Apache Spark menggunakan Parquet.

Artikel ini memberikan gambaran umum tentang banyak opsi dan konfigurasi yang tersedia saat Anda mengkueri data di Azure Databricks.

Format data berikut memiliki konfigurasi kata kunci bawaan di Apache Spark DataFrames dan SQL:

Azure Databricks juga menyediakan kata kunci kustom untuk memuat eksperimen MLflow.

Format data dengan pertimbangan khusus

Beberapa format data memerlukan konfigurasi tambahan atau pertimbangan khusus untuk digunakan:

Databricks merekomendasikan pemuatan gambar sebagai binary data.
Azure Databricks dapat langsung membaca file terkompresi dalam banyak format file. Anda juga dapat membuka zip file terkompresi di Azure Databricks jika perlu.

Untuk informasi selengkapnya tentang sumber data Apache Spark, lihat Generic Load/Save Functions dan Generic File Source Options.

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2025-01-22

Bagikan melalui

Pilihan format data

Format data dengan pertimbangan khusus

Saran dan Komentar

Sumber Daya Tambahan: