數據格式選項

文章
07/27/2024

Azure Databricks 具有 Apache Spark 原生支援之所有數據格式的內建關鍵詞系結。 Azure Databricks 使用 Delta Lake 作為讀取和寫入數據和數據表的預設通訊協定，而 Apache Spark 則使用 Parquet。

這些文章提供您在 Azure Databricks 上查詢數據時可用的許多選項和組態概觀。

下列數據格式在 Apache Spark DataFrame 和 SQL 中具有內建關鍵片語態：

Azure Databricks 也提供自定義關鍵詞來載入 MLflow 實驗。

具有特殊考慮的數據格式

某些數據格式需要額外的設定或特殊考慮，以供使用：

Databricks 建議將影像載入為binary數據。
Azure Databricks 可以直接讀取許多檔格式的壓縮檔案。如有必要，您也可以將壓縮檔解壓縮到 Azure Databricks 上。
LZO 需要安裝編解碼器。

如需 Apache Spark 數據源的詳細資訊，請參閱一般載入/儲存函式和一般檔案來源選項。