Dela via


Alternativ för dataformat

Azure Databricks har inbyggda nyckelordsbindningar för alla dataformat som stöds internt av Apache Spark. Azure Databricks använder Delta Lake som standardprotokoll för att läsa och skriva data och tabeller, medan Apache Spark använder Parquet.

De här artiklarna ger en översikt över många av de alternativ och konfigurationer som är tillgängliga när du frågar efter data i Azure Databricks.

Följande dataformat har inbyggda nyckelordskonfigurationer i Apache Spark DataFrames och SQL:

Azure Databricks innehåller också ett anpassat nyckelord för inläsning av MLflow-experiment.

Dataformat med särskilda överväganden

Vissa dataformat kräver ytterligare konfiguration eller särskilda överväganden för användning:

  • Databricks rekommenderar att du läser in bilder som binary data.
  • Azure Databricks kan läsa komprimerade filer direkt i många filformat. Du kan också packa upp komprimerade filer på Azure Databricks om det behövs.
  • LZO kräver en codec-installation.

Mer information om Apache Spark-datakällor finns i Generic Load/Save Functions (Allmänna Läs in/Spara-funktioner) och Generic File Source Options (Allmänna alternativ för filkälla).