Поделиться через


Ограничения конвейера

Ниже приведены ограничения декларативных конвейеров Spark Lakeflow, которые важны для разработки конвейеров.

  • Рабочая область Azure Databricks ограничена 200 параллельными обновлениями конвейера. Количество наборов данных, которые может содержать один конвейер, определяется конфигурацией конвейера и сложностью рабочей нагрузки.
  • Наборы данных конвейера можно задать только один раз. Из-за этого они могут быть мишенью только одной операции во всех конвейерах. Исключением являются потоковые таблицы с обработкой потока добавления данных, которая позволяет записывать в потоковую таблицу из нескольких потоковых источников. См . раздел "Использование нескольких потоков для записи в один целевой объект".
  • Колонки идентификаторов имеют следующие ограничения. Для получения дополнительной информации о столбцах идентификаторов в таблицах Delta см. руководство Использование столбцов идентификаторов в Delta Lake.
    • Идентификационные столбцы не поддерживаются в таблицах, предназначенных для обработки AUTO CDC.
    • Столбцы идентификаторов могут быть пересчитаны во время обновления материализованных представлений. Из-за этого Databricks рекомендует использовать идентичные столбцы в пайплайнах только с потоковыми таблицами.
  • Материализованные представления и таблицы потоковой передачи, опубликованные из конвейеров, включая созданные в Databricks SQL, могут быть доступны только клиентами и приложениями Azure Databricks. Однако, чтобы сделать ваши материализованные представления и потоковые таблицы доступными извне, можно использовать API sink для записи в таблицы во внешнем экземпляре Delta. См. приемники в декларативных конвейерах Spark Lakeflow.
  • Существуют ограничения для вычислительных ресурсов Databricks, необходимых для запуска и выполнения запросов в конвейерах Unity Catalog. Ознакомьтесь с требованиями к каналам, размещающим данные в Unity Catalog.
  • Запросы на перемещение по времени Delta Lake поддерживаются только в потоковых таблицах и не поддерживаются материализованными представлениями. См. статью "Работа с журналом таблиц".
  • Невозможно включить Iceberg reads для материализованных представлений и потоковых таблиц.
  • Функция pivot() не поддерживается. Операция pivot в Spark требует активной загрузки входных данных для вычисления выходной схемы. Эта возможность не поддерживается в конвейерах.