Рекомендации по оптимизации Azure Databricks

Azure Databricks обеспечивает множество оптимизаций, поддерживающих различные рабочие нагрузки в lakehouse, начиная от крупномасштабной обработки ETL до нерегламентированных интерактивных запросов. Многие из этих оптимизаций происходят автоматически. Вы получаете свои преимущества просто с помощью Azure Databricks. Кроме того, для большинства функций среды выполнения Databricks требуется Delta Lake, используемый по умолчанию для создания таблиц в Azure Databricks.

Azure Databricks настраивает значения по умолчанию, оптимизирующие большинство рабочих нагрузок. Тем не менее в некоторых случаях изменение параметров конфигурации повышает производительность.

Улучшения производительности Databricks Runtime

Примечание.

Применяйте последнюю версию Databricks Runtime для использования новейших улучшений производительности. Все документированные здесь поведения включены по умолчанию в Databricks Runtime 10.4 LTS и выше.

Кеширование дисков ускоряет повторяющиеся операции чтения файлов данных Parquet путем загрузки данных на тома дисков, подключенных к вычислительным кластерам.
Динамическое удаление файлов повышает производительность запросов, пропуская каталоги, которые не содержат файлы данных, соответствующие предикатам запросов.
Низкое перемешивание слиянием уменьшает количество файлов данных, перезаписываемых MERGE операциями, и снижает необходимость повторного выполнения OPTIMIZE после слияния.
Apache Spark 3.0 представил адаптивное выполнение запросов, которое обеспечивает повышенную производительность для многих операций.

Действия по согласию на участие

Azure Databricks предоставляет гарантию сериализуемой изоляции записи по умолчанию; изменение уровня изоляции на сериализуемое может снизить пропускную способность для одновременных операций, но может потребоваться, если требуется сериализация чтения.
Azure Databricks устарел индексы bloom-фильтров. Вместо этого используйте прогнозную кластеризацию операций ввода-вывода или жидкости.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-04-11

Рекомендации по оптимизации Azure Databricks

Улучшения производительности Databricks Runtime

Рекомендации Databricks по повышению производительности

Действия по согласию на участие

Обратная связь

Дополнительные ресурсы