Поделиться через


Преобразование данных путем запуска записной книжки Synapse

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Действие Записной книжки Azure Synapse в конвейере запускает записную книжку Synapse в рабочей области Azure Synapse Analytics. Данная статья основана на материалах статьи о действиях преобразования данных , в которой приведен общий обзор преобразования данных и список поддерживаемых действий преобразования.

Вы можете создать действие записной книжки Azure Synapse Analytics непосредственно через пользовательский интерфейс Фабрика данных Azure Studio. Пошаговые инструкции по созданию действия записной книжки Synapse с помощью пользовательского интерфейса см. в следующих статьях.

Добавление действия Notebook для Synapse в конвейер с пользовательским интерфейсом

Чтобы использовать действие Notebook для Synapse в конвейере, выполните следующие действия:

Общие параметры

  1. Найдите записную книжку в области действий конвейера и перетащите действие Notebook в synapse на холст конвейера.
  2. Выберите новое действие Notebook на холсте, если оно еще не выбрано.
  3. В параметрах "Общие" введите пример для имени.
  4. (Дополнительно.) Можно также ввести описание.
  5. Время ожидания: максимальный период времени, в течение которого может выполняться действие. Значение по умолчанию — 12 часов, а максимально допустимое время — 7 дней. Формат — Д:ЧЧ:ММ:СС.
  6. Повторные попытки: максимальное число повторных попыток.
  7. Интервал повтора (с): количество секунд между каждой попыткой повтора.
  8. Безопасные выходные данные: если этот флажок установлен, выходные данные из действия не будут регистрироваться в журнале.
  9. Безопасные входные данные: если этот флажок установлен, входные данные из действия не будут регистрироваться в журнале.

Параметры Azure Synapse Analytics (Артефакты)

Перейдите на вкладку Azure Synapse Analytics (Artifacts), чтобы выбрать или создать связанную службу Azure Synapse Analytics, которая выполнит действие Notebook.

Снимок экрана: вкладка связанной службы для действия

Вкладка "Параметры"

  1. Выберите новое действие Synapse Notebook на холсте, если оно еще не выбрано.

  2. Выберите вкладку Параметры.

  3. Разверните список записных книжек, вы можете выбрать существующую записную книжку в связанной службе Azure Synapse Analytics (артефакты).

  4. Нажмите кнопку "Открыть", чтобы открыть страницу связанной службы, где находится выбранная записная книжка.

Примечание.

Если идентификатор ресурса рабочей области в связанной службе пуст, кнопка "Открыть" будет отключена.

Снимок экрана: кнопка

  1. Перейдите на вкладку "Параметры" и выберите записную книжку и необязательные базовые параметры для передачи в записную книжку.

    Снимок экрана: вкладка

  2. (Необязательно) Вы можете заполнить сведения для записной книжки Synapse. Если следующие параметры пусты, параметры самой записной книжки Synapse будут использоваться для выполнения; Если следующие параметры не пусты, эти параметры заменят параметры самой записной книжки Synapse.

    Свойство Description
    Пул Spark Ссылка на пул Spark. В списке можно выбрать пул Apache Spark.
    Размер исполнителя Количество ядер и объем памяти, которые будут использоваться для исполнителей, выделяются в определенном пуле Apache Spark для сеанса. Для динамического содержимого допустимые значения: Small/Medium/Large/XLarge/XXLarge.
    Динамическое выделение исполнителей Этот параметр сопоставляется с динамическим свойством выделения в конфигурации Spark для выделения исполнителей приложения Spark.
    Минимальное число исполнителей Минимальное число исполнителей, которые будут выделены в указанном пуле Spark для этого задания.
    Максимальное число исполнителей Максимальное число исполнителей, которые будут выделены в указанном пуле Spark для этого задания.
    Размер драйвера Количество ядер и объем памяти, которые будут использоваться для драйвера, предоставленного для задания в указанном пуле Apache Spark.

Определение действия записной книжки Azure Synapse Analytics

Ниже приведен пример определения JSON для действия записной книжки Azure Synapse Analytics:

{
    "activities": [
            {
                "name": "demo",
                "description": "description",
                "type": "SynapseNotebook",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "userProperties": [
                    {
                        "name": "testproperties",
                        "value": "test123"
                    }
                ],
                "typeProperties": {
                    "notebook": {
                        "referenceName": {
                            "value": "Notebookname",
                            "type": "Expression"
                        },
                        "type": "NotebookReference"
                    },
                    "parameters": {
                        "test": {
                            "value": "testvalue",
                            "type": "string"
                        }
                    },
                    "snapshot": true,
                    "sparkPool": {
                        "referenceName": {
                            "value": "SampleSpark",
                            "type": "Expression"
                        },
                        "type": "BigDataPoolReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ]
    }

Свойства действия записной книжки Azure Synapse Analytics

В следующей таблице приведено описание свойств, используемых в определении JSON.

Свойство Описание: Обязательное поле
name Имя действия в конвейере. Да
описание Описание действия. No
type Для действия Записной книжки Azure Synapse Analytics тип действия — SynapseNotebook. Да
записная книжка Имя записной книжки, выполняемой в Azure Synapse Analytics. Да
sparkPool Пул Spark, необходимый для запуска записной книжки Azure Synapse Analytics. No
параметр Параметр, необходимый для запуска записной книжки Azure Synapse Analytics. Дополнительные сведения см. в статье "Преобразование данных" с помощью записной книжки Synapse No

Назначение ячейки параметров

Фабрика данных Azure находит ячейки параметров и применяет эти значения как значения по умолчанию для параметров, передаваемых во время выполнения. Подсистема выполнения добавит новую ячейку под ячейкой с входными параметрами, чтобы перезаписать значения по умолчанию. Вы можете ссылаться на данные преобразования, выполнив записную книжку Synapse.

Считывание выходного значения ячейки в записной книжке Synapse

Вы можете прочитать выходное значение ячейки записной книжки в действии, чтобы получить ссылку на преобразование данных, выполнив записную книжку Synapse.

Выполнение другой записной книжки Synapse

В действии записной книжки Synapse вы можете ссылаться на другие записные книжки, используя магическую команду %run или средства mssparkutils для записной книжки. Оба действия поддерживают вложенные вызовы функций. Основные отличия этих двух методов, которые следует учитывать в зависимости от сценария, приведены ниже:

  • Магическая команда %run копирует все ячейки из указанной записной книжки в ячейку %run и предоставляет доступ к контексту переменной. Если notebook1 ссылается на notebook2 через вызов %run notebook2, а notebook2 вызывает функцию mssparkutils.notebook.exit, выполнение ячейки в notebook1 останавливается. Мы рекомендуем использовать магическую команду %run, если вы хотите включить файл записной книжки.
  • Средства mssparkutils для записной книжки вызывают указанную записную книжку, как метод или функцию. Контекст переменной при этом не передается. Если notebook1 ссылается на notebook2 через вызов mssparkutils.notebook.run("notebook2"), а notebook2 вызывает функцию mssparkutils.notebook.exit, выполнение ячейки в notebook1 продолжается. Мы рекомендуем использовать служебные программы записных книжек mssparkutils, если вы хотите импортировать записную книжку.

Просмотр журнала выполнения действий Записной книжки Azure Synapse Analytics

Перейдите к конвейеру на вкладке "Монитор ", вы увидите запущенный конвейер. Откройте конвейер, который содержит нужное действие записной книжки Synapse, чтобы просмотреть историю его выполнения.

Снимок экрана: входные и выходные данные для действия Записной книжки.

Для моментального снимка открытой записной книжки эта функция в настоящее время не поддерживается.

Чтобы изучить входные или выходные данные действия записной книжки, нажмите кнопку Входные данные или Выходные данные. Если конвейер завершился сбоем из-за пользовательской ошибки, в разделе Выходные данные можно проверить поле Результат с подробной трассировкой этой ошибки.

Снимок экрана: ошибка выходного пользователя для действия Notebook.