Поделиться через


Настройка вычислений для декларативных конвейеров Lakeflow

В этой статье содержатся инструкции и рекомендации по настройке пользовательских параметров вычислений для декларативных конвейеров Lakeflow.

Бессерверные конвейеры не предоставляют параметры конфигурации вычислений. См. раздел "Настройка бессерверного конвейера".

Выбор политики кластера

Пользователи должны иметь разрешение на развертывание вычислительных ресурсов для настройки и обновления декларативных конвейеров Lakeflow. Администраторы рабочей области могут настроить политики кластера для предоставления пользователям доступа к вычислительным ресурсам для декларативных конвейеров Lakeflow. См. раздел "Определение ограничений для вычислений декларативных конвейеров Lakeflow".

Заметка

  • Политики кластера являются необязательными. Обратитесь к администратору рабочей области, если у вас отсутствуют привилегии вычислений, необходимые для декларативных конвейеров Lakeflow.

  • Чтобы гарантировать правильное применение значений политики кластера по умолчанию, установите для apply_policy_default_values значение true в конфигурациях кластера и в конфигурации вашего конвейера.

    {
      "clusters": [
        {
          "label": "default",
          "policy_id": "<policy-id>",
          "apply_policy_default_values": true
        }
      ]
    }
    

Настройка тегов кластера

Вы можете использовать теги кластера для мониторинга использования ваших кластеров для обработки данных. Добавьте теги кластера в пользовательский интерфейс Декларативных конвейеров Lakeflow при создании или изменении конвейера или редактировании параметров JSON для кластеров конвейеров.

Выбор типов экземпляров для запуска конвейера

По умолчанию Декларативные конвейеры Lakeflow выбирают типы экземпляров для драйверов и рабочих узлов конвейера. При необходимости можно настроить типы экземпляров.

Например, выберите типы экземпляров, чтобы повысить производительность конвейера или устранить проблемы с памятью при запуске конвейера. Типы экземпляров можно настроить при создании или изменении конвейера с помощью REST API или в пользовательском интерфейсе Декларативного конвейера Lakeflow.

Чтобы задать параметры типов экземпляров при создании или редактировании конвейера в пользовательском интерфейсе декларативных конвейеров Lakeflow:

  1. Нажмите кнопку "Настройки".
  2. В разделе Advanced параметров конвейера в раскрывающемся меню типа рабочего элемента и типа драйвера выберите типы экземпляров для конвейера.

расширенные конфигурации вычислений

Заметка

Поскольку вычислительные ресурсы полностью управляются для бессерверных декларативных конвейеров Lakeflow, настройки вычислений становятся недоступными, когда вы выбираете бессерверный для конвейера.

Каждый декларативный конвейер имеет два связанных кластера:

  • updates кластер обрабатывает обновления потока данных.
  • Кластер maintenance выполняет ежедневные задачи обслуживания.

Параметры вычислений, указанные с помощью пользовательского интерфейса конфигурации конвейера рабочей области, применяются как к кластерам обновления, так и к кластерам обслуживания. Чтобы изменить эти параметры независимо, необходимо изменить конфигурацию JSON.

Конфигурация этих кластеров определяется атрибутом clusters, указанным в параметрах конвейера.

С помощью меток кластера можно добавить параметры вычислений, которые применяются только к определенному типу кластера. При настройке кластеров конвейеров можно использовать три метки:

Заметка

Параметр метки кластера может быть опущен, если определить только одну конфигурацию кластера. Метка default применяется к конфигурациям кластера, если не указан параметр метки. Параметр метки кластера требуется только в том случае, если необходимо настроить параметры для разных типов кластеров.

  • Метка default определяет параметры вычислений для кластеров updates и maintenance. Применение одинаковых параметров к обоим кластерам повышает надежность выполнения операций обслуживания, обеспечивая применение необходимых конфигураций, таких как учетные данные для доступа к хранилищу данных, к каждому из кластеров.
  • Метка maintenance определяет параметры вычислений, которые применяются только к кластеру maintenance. Можно также использовать метку maintenance для переопределения параметров, настроенных меткой default.
  • Метка updates определяет параметры, которые применяются только к кластеру updates. Используйте его для настройки параметров, которые не должны применяться к кластеру maintenance.

Параметры, определенные с помощью меток default и updates, объединяются для создания окончательной конфигурации для кластера updates. Если один и тот же параметр определен с помощью default и updates меток, параметр, определенный с помощью метки updates, переопределяет параметр, определенный с помощью метки default.

В следующем примере определяется параметр конфигурации Spark, добавляемый только в конфигурацию для кластера updates:

{
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    },
    {
      "label": "updates",
      "spark_conf": {
        "key": "value"
      }
    }
  ]
}

У декларативных конвейеров Lakeflow параметры настроек кластера аналогичны параметрам других вычислительных ресурсов на Azure Databricks. Как и другие параметры конвейера, можно изменить конфигурацию JSON для кластеров, чтобы указать параметры, которые отсутствуют в пользовательском интерфейсе. См. Вычислить.

Заметка

Так как среда выполнения Декларативных конвейеров Lakeflow управляет жизненным циклом кластеров конвейеров и выполняет настраиваемую версию Databricks Runtime, вы не можете вручную задать некоторые параметры кластера в конфигурации конвейера, например версию Spark или имена кластеров. См. атрибуты кластера , которые нельзя настроить пользователем.

Настройка типов экземпляров для кластеров обновления и обслуживания

Чтобы настроить типы экземпляров в параметрах JSON конвейера, нажмите кнопку JSON и введите конфигурации типов экземпляра в конфигурации кластера:

Заметка

Чтобы избежать назначения ненужных ресурсов кластеру maintenance, в этом примере используется метка updates для задания типов экземпляров только для кластера updates. Чтобы назначить типы экземпляров кластерам updates и maintenance, можете использовать метку default или опустите параметр метки. Метка default применяется к конфигурациям кластера конвейера, если не указан параметр метки. См. расширенные конфигурации вычислений.

{
  "clusters": [
    {
      "label": "updates",
      "node_type_id": "Standard_D12_v2",
      "driver_node_type_id": "Standard_D3_v2",
      "...": "..."
    }
  ]
}

Задержка завершения работы вычислений

Для управления поведением завершения работы кластера можно использовать режим разработки или рабочей среды или использовать параметр pipelines.clusterShutdown.delay в конфигурации конвейера. В следующем примере значение pipelines.clusterShutdown.delay равно 60 секундам:

{
  "configuration": {
    "pipelines.clusterShutdown.delay": "60s"
  }
}

Если режим production включен, то значение по умолчанию для pipelines.clusterShutdown.delay становится 0 seconds. Если режим development включен, установлено значение по умолчанию 2 hours.

Заметка

Поскольку кластер Декларативных конвейеров Lakeflow автоматически завершает работу, когда не используется, попытка сослаться на политику кластера, устанавливающую autotermination_minutes в конфигурации кластера, приводит к ошибке.

Создание одного кластера узлов

Это важно

Эта функция доступна в закрытой предварительной версии. Чтобы попробовать, свяжитесь с вашим контактом в Azure Databricks.

Если в параметрах кластера задано значение num_workers 0, кластер создается в качестве кластера с одним узлом. Настройка кластера автомасштабирования и задание min_workers до значения 0 и max_workers до 0 создает кластер из одного узла.

Если вы настраиваете кластер автомасштабирования и задаете только min_workers значение 0, кластер не создается в качестве одного кластера узлов. Кластер всегда имеет по крайней мере одного активного рабочего до завершения.

Пример конфигурации для создания кластера с одним узлом в декларативных конвейерах Lakeflow:

{
  "clusters": [
    {
      "num_workers": 0
    }
  ]
}