Поделиться через


Параметры формата данных

Azure Databricks имеет встроенные привязки ключевое слово для всех форматов данных, которые изначально поддерживаются Apache Spark. Azure Databricks использует Delta Lake в качестве протокола по умолчанию для чтения и записи данных и таблиц, в то время как Apache Spark использует Parquet.

В этих статьях представлен обзор многих параметров и конфигураций, доступных при запросе данных в Azure Databricks.

Следующие форматы данных имеют встроенные конфигурации ключевое слово в Apache Spark DataFrames и SQL:

Azure Databricks также предоставляет настраиваемые ключевое слово для загрузки экспериментов MLflow.

Форматы данных с особыми рекомендациями

Для использования некоторых форматов данных требуется дополнительная конфигурация или специальные рекомендации.

  • Databricks рекомендует загружать изображения в качестве binary данных.
  • Таблицы Hive изначально поддерживаются Apache Spark, но требуют настройки в Azure Databricks.
  • Azure Databricks может напрямую считывать сжатые файлы во многих форматах файлов. При необходимости можно распакуть сжатые файлы в Azure Databricks.
  • Для LZO требуется установка кодека.

Дополнительные сведения об источниках данных Apache Spark см. в статье Generic Load/Save Functions (Универсальные функции загрузки и сохранения) и Generic File Source Options (Универсальные параметры источников файлов).