Možnosti formátu dat
Azure Databricks má integrované vazby klíčových slov pro všechny formáty dat nativně podporované Apache Sparkem. Azure Databricks používá Delta Lake jako výchozí protokol pro čtení a zápis dat a tabulek, zatímco Apache Spark používá Parquet.
Tyto články poskytují přehled mnoha dostupných možností a konfigurací při dotazování dat v Azure Databricks.
Následující formáty dat mají integrované konfigurace klíčových slov v datových rámcích Apache Spark a SQL:
Azure Databricks také poskytuje vlastní klíčové slovo pro načítání experimentů MLflow.
Formáty dat se zvláštními aspekty
Některé formáty dat vyžadují další konfiguraci nebo zvláštní aspekty použití:
- Databricks doporučuje načítat obrázky jako
binary
data. - Azure Databricks může přímo číst komprimované soubory v mnoha formátech souborů. V případě potřeby můžete také rozbalit komprimované soubory v Azure Databricks.
- LZO vyžaduje instalaci kodeku.
Další informace o zdrojích dat Apache Sparku najdete v tématech věnovaných obecným funkcím pro načítání a ukládání a generickým možnostem zdrojů souborů.