Sdílet prostřednictvím


Možnosti formátu dat

Azure Databricks má integrované vazby klíčových slov pro všechny formáty dat nativně podporované Apache Sparkem. Azure Databricks používá Delta Lake jako výchozí protokol pro čtení a zápis dat a tabulek, zatímco Apache Spark používá Parquet.

Tyto články poskytují přehled mnoha dostupných možností a konfigurací při dotazování dat v Azure Databricks.

Následující formáty dat mají integrované konfigurace klíčových slov v datových rámcích Apache Spark a SQL:

Azure Databricks také poskytuje vlastní klíčové slovo pro načítání experimentů MLflow.

Formáty dat se zvláštními aspekty

Některé formáty dat vyžadují další konfiguraci nebo zvláštní aspekty použití:

  • Databricks doporučuje načítat obrázky jako binary data.
  • Azure Databricks může přímo číst komprimované soubory v mnoha formátech souborů. V případě potřeby můžete také rozbalit komprimované soubory v Azure Databricks.
  • LZO vyžaduje instalaci kodeku.

Další informace o zdrojích dat Apache Sparku najdete v tématech věnovaných obecným funkcím pro načítání a ukládání a generickým možnostem zdrojů souborů.