分享方式:


數據格式選項

Azure Databricks 具有 Apache Spark 原生支援之所有數據格式的內建關鍵詞系結。 Azure Databricks 使用 Delta Lake 作為讀取和寫入數據和數據表的預設通訊協定,而 Apache Spark 則使用 Parquet。

這些文章提供您在 Azure Databricks 上查詢數據時可用的許多選項和組態概觀。

下列數據格式在 Apache Spark DataFrame 和 SQL 中具有內建關鍵片語態:

Azure Databricks 也提供自定義關鍵詞來載入 MLflow 實驗

具有特殊考慮的數據格式

某些數據格式需要額外的設定或特殊考慮,以供使用:

  • Databricks 建議將影像載入binary數據。
  • Azure Databricks 可以直接讀取許多檔格式的壓縮檔案。 如有必要,您也可以 將壓縮檔 解壓縮到 Azure Databricks 上。
  • LZO 需要安裝編解碼器。

如需 Apache Spark 數據源的詳細資訊,請參閱 一般載入/儲存函 式和 一般檔案來源選項