Бөлісу құралы:


Сбор данных из Центров событий в формате Delta Lake

В этой статье объясняется, как использовать редактор кода для автоматического сбора потоковых данных в Центрах событий в учетной записи Azure Data Lake Storage 2-го поколения в формате Delta Lake.

Необходимые компоненты

  • Ресурсы Центров событий Azure и Azure Data Lake Storage 2-го поколения должны быть общедоступными, а не размещаться за брандмауэром или быть защищенными в виртуальной сети Azure
  • Данные в Центрах событий должны быть сериализованы в формате JSON, CSV или Avro.

Настройка задания для записи данных

Чтобы настроить задание Stream Analytics для записи данных в Azure Data Lake Storage 2-го поколения, выполните следующие действия.

  1. На портале Azure перейдите к концентратору событий.

  2. Выберите данные процесса функций>и нажмите кнопку "Начать запись данных в ADLS 2-го поколения" в карточке формата Delta Lake.
    Снимок экрана: карточки для начала обработки данных Центров событий.

    Кроме того, выберите "Запись компонентов>" и выберите параметр Delta Lake в разделе "Формат сериализации выходных событий", а затем выберите "Пуск конфигурации записи данных". Снимок экрана: точка входа создания данных записи.

  3. Введите имя для определения задания Stream Analytics. Нажмите кнопку создания.
    Снимок экрана: окно

  4. Укажите тип сериализации данных в центрах событий и метод проверки подлинности, который задание использует для подключения к Центрам событий. В этом случае выберите Подключиться. Снимок экрана: конфигурация подключения Центров событий.

  5. После успешной установки подключения вы увидите:

    • Наличие полей в входных данных. Вы можете нажать кнопку Добавить поле или выбрать символ с тремя точками рядом с каждым полем, чтобы при необходимости удалить, переименовать его или изменить его имя.
    • Динамический пример входящих данных в таблице Предварительный просмотр данных в представлении диаграммы. Он периодически обновляется. Вы можете выбрать Приостановить предварительный просмотр потоковой передачи, чтобы просмотреть статическое представление примера входных данных.
      Снимок экрана: пример данных на вкладке
  6. Выберите плитку Azure Data Lake Storage 2-го поколения, чтобы изменить конфигурацию.

  7. На странице настройки Azure Data Lake Storage 2-го поколения сделайте следующее:

    1. В раскрывающемся меню выберите подписку, имя учетной записи хранения и контейнер.

    2. После выбора подписки значения для способа проверки подлинности и ключа учетной записи хранения должны быть заданы автоматически.

    3. Для пути к таблице Delta используется для указания расположения и имени таблицы Delta Lake, хранящейся в Azure Data Lake Storage 2-го поколения. Можно использовать один или несколько сегментов пути, чтобы определить путь к разностной таблице и имени разностной таблицы. Дополнительные сведения см. в статье "Запись в таблицу Delta Lake".

    4. Нажмите Подключиться.

      Снимок экрана: окно

  8. При установке подключения отображаются поля, которые присутствуют в выходных данных.

  9. Выберите команду Сохранить на панели команд, чтобы сохранить конфигурацию.

  10. Выберите команду Запустить на панели команд, чтобы запустить потоковую передачу для записи данных. Затем в окне запуска задания Stream Analytics выполните следующие действия.

    1. Выберите время начала создания выходных данных.
    2. Выберите число единиц потоковой передачи, с которыми выполняется задание. Единицы потоковой передачи представляют вычислительные ресурсы, выделяемые для выполнения задания Stream Analytics. Дополнительные сведения см. в разделе Единицы потоковой передачи в Azure Stream Analytics.
      Снимок экрана: окно
  11. После нажатия кнопки "Пуск" задание запускается в течение двух минут, а метрики будут открыты в разделе вкладки, как показано на следующем рисунке. Снимок экрана: диаграмма метрик.

  12. Новое задание можно увидеть на вкладке заданий Stream Analytics. Снимок экрана: выделенная ссылка

Проверка выходных данных

Убедитесь, что файлы parquet с форматом Delta lake создаются в контейнере Azure Data Lake Storage.

Снимок экрана: созданные файлы Parquet в контейнере Azure Data Lake Storage (ADLS).

Рекомендации при использовании функции георепликации Центров событий

Центры событий Azure недавно запустили Функция георепликации в общедоступной предварительной версии. Эта функция отличается от функции географического аварийного восстановления Центры событий Azure.

Если тип отработки отказа является принудительной и согласованность репликации является асинхронной, задание Stream Analytics не гарантирует точно один раз выходных данных в Центры событий Azure выходных данных.

Azure Stream Analytics в качестве производителя с выходными данными концентратора событий может наблюдать задержку водяного знака в задании во время отработки отказа и во время регулирования центрами событий в случае задержки репликации между основными и вторичными компонентами достигает максимально настроенной задержки.

Azure Stream Analytics, как потребитель с Центрами событий в качестве входных данных, может наблюдать задержку водяного знака в задании во время отработки отказа и может пропустить данные или найти дублирующиеся данные после завершения отработки отказа.

Из-за этих предостережения рекомендуется перезапустить задание Stream Analytics с соответствующим временем начала сразу после завершения отработки отказа Центров событий. Кроме того, так как функция георепликации Центров событий находится в общедоступной предварительной версии, мы не рекомендуем использовать этот шаблон для рабочих заданий Stream Analytics на данный момент. Текущее поведение Stream Analytics улучшится, прежде чем функция георепликации Центров событий общедоступна и может использоваться в рабочих заданиях Stream Analytics.

Следующие шаги

Теперь вы знаете, как использовать Stream Analytics без редактора кода для создания задания, которое записывает данные Центров событий для Azure Data Lake Storage 2-го поколения в формате Delta lake. Теперь вы можете ознакомиться с более подробной информацией о Azure Stream Analytics и о том, как выполнять мониторинг созданного задания.