Opsi format data

Azure Databricks memiliki pengikatan kata kunci bawaan untuk semua format data yang didukung secara asli oleh Apache Spark. Azure Databricks menggunakan Delta Lake sebagai protokol default untuk membaca dan menulis data dan tabel, sedangkan Apache Spark menggunakan Parquet.

Artikel ini memberikan gambaran umum tentang banyak opsi dan konfigurasi yang tersedia saat Anda mengkueri data di Azure Databricks.

Format data berikut memiliki konfigurasi kata kunci bawaan di Apache Spark DataFrames dan SQL:

Azure Databricks juga menyediakan kata kunci kustom untuk memuat eksperimen MLflow.

Format data dengan pertimbangan khusus

Beberapa format data memerlukan konfigurasi tambahan atau pertimbangan khusus untuk digunakan:

  • Databricks merekomendasikan pemuatan gambar sebagai binary data.
  • Tabel Apache Hive secara asli didukung oleh Apache Spark, tetapi memerlukan konfigurasi di Azure Databricks.
  • Azure Databricks dapat langsung membaca file terkompresi dalam banyak format file. Anda juga dapat membuka zip file terkompresi di Azure Databricks jika perlu.
  • LZO memerlukan penginstalan codec.

Untuk informasi selengkapnya tentang sumber data Apache Spark, lihat Generic Load/Save Functions dan Generic File Source Options.