Параметры формата данных
Azure Databricks имеет встроенные привязки ключевое слово для всех форматов данных, которые изначально поддерживаются Apache Spark. Azure Databricks использует Delta Lake в качестве протокола по умолчанию для чтения и записи данных и таблиц, в то время как Apache Spark использует Parquet.
В этих статьях представлен обзор многих параметров и конфигураций, доступных при запросе данных в Azure Databricks.
Следующие форматы данных имеют встроенные конфигурации ключевое слово в Apache Spark DataFrames и SQL:
Azure Databricks также предоставляет настраиваемые ключевое слово для загрузки экспериментов MLflow.
Форматы данных с особыми рекомендациями
Для использования некоторых форматов данных требуется дополнительная конфигурация или специальные рекомендации.
- Databricks рекомендует загружать изображения в качестве
binary
данных. - Таблицы Hive изначально поддерживаются Apache Spark, но требуют настройки в Azure Databricks.
- Azure Databricks может напрямую считывать сжатые файлы во многих форматах файлов. При необходимости можно распакуть сжатые файлы в Azure Databricks.
- Для LZO требуется установка кодека.
Дополнительные сведения об источниках данных Apache Spark см. в статье Generic Load/Save Functions (Универсальные функции загрузки и сохранения) и Generic File Source Options (Универсальные параметры источников файлов).