Сбор данных из Центров событий в формате Delta Lake
В этой статье объясняется, как использовать редактор кода для автоматического сбора потоковых данных в Центрах событий в учетной записи Azure Data Lake Storage 2-го поколения в формате Delta Lake.
Необходимые компоненты
- Ресурсы Центров событий Azure и Azure Data Lake Storage 2-го поколения должны быть общедоступными, а не размещаться за брандмауэром или быть защищенными в виртуальной сети Azure
- Данные в Центрах событий должны быть сериализованы в формате JSON, CSV или Avro.
Настройка задания для записи данных
Чтобы настроить задание Stream Analytics для записи данных в Azure Data Lake Storage 2-го поколения, выполните следующие действия.
На портале Azure перейдите к концентратору событий.
Выберите данные процесса функций>и нажмите кнопку "Начать запись данных в ADLS 2-го поколения" в карточке формата Delta Lake.
Кроме того, выберите "Запись компонентов>" и выберите параметр Delta Lake в разделе "Формат сериализации выходных событий", а затем выберите "Пуск конфигурации записи данных".
Введите имя для определения задания Stream Analytics. Нажмите кнопку создания.
Укажите тип сериализации данных в центрах событий и метод проверки подлинности, который задание использует для подключения к Центрам событий. В этом случае выберите Подключиться.
После успешной установки подключения вы увидите:
- Наличие полей в входных данных. Вы можете нажать кнопку Добавить поле или выбрать символ с тремя точками рядом с каждым полем, чтобы при необходимости удалить, переименовать его или изменить его имя.
- Динамический пример входящих данных в таблице Предварительный просмотр данных в представлении диаграммы. Он периодически обновляется. Вы можете выбрать Приостановить предварительный просмотр потоковой передачи, чтобы просмотреть статическое представление примера входных данных.
Выберите плитку Azure Data Lake Storage 2-го поколения, чтобы изменить конфигурацию.
На странице настройки Azure Data Lake Storage 2-го поколения сделайте следующее:
В раскрывающемся меню выберите подписку, имя учетной записи хранения и контейнер.
После выбора подписки значения для способа проверки подлинности и ключа учетной записи хранения должны быть заданы автоматически.
Для пути к таблице Delta используется для указания расположения и имени таблицы Delta Lake, хранящейся в Azure Data Lake Storage 2-го поколения. Можно использовать один или несколько сегментов пути, чтобы определить путь к разностной таблице и имени разностной таблицы. Дополнительные сведения см. в статье "Запись в таблицу Delta Lake".
Нажмите Подключиться.
При установке подключения отображаются поля, которые присутствуют в выходных данных.
Выберите команду Сохранить на панели команд, чтобы сохранить конфигурацию.
Выберите команду Запустить на панели команд, чтобы запустить потоковую передачу для записи данных. Затем в окне запуска задания Stream Analytics выполните следующие действия.
- Выберите время начала создания выходных данных.
- Выберите число единиц потоковой передачи, с которыми выполняется задание. Единицы потоковой передачи представляют вычислительные ресурсы, выделяемые для выполнения задания Stream Analytics. Дополнительные сведения см. в разделе Единицы потоковой передачи в Azure Stream Analytics.
После нажатия кнопки "Пуск" задание запускается в течение двух минут, а метрики будут открыты в разделе вкладки, как показано на следующем рисунке.
Новое задание можно увидеть на вкладке заданий Stream Analytics.
Проверка выходных данных
Убедитесь, что файлы parquet с форматом Delta lake создаются в контейнере Azure Data Lake Storage.
Рекомендации при использовании функции георепликации Центров событий
Центры событий Azure недавно запустили Функция георепликации в общедоступной предварительной версии. Эта функция отличается от функции географического аварийного восстановления Центры событий Azure.
Если тип отработки отказа является принудительной и согласованность репликации является асинхронной, задание Stream Analytics не гарантирует точно один раз выходных данных в Центры событий Azure выходных данных.
Azure Stream Analytics в качестве производителя с выходными данными концентратора событий может наблюдать задержку водяного знака в задании во время отработки отказа и во время регулирования центрами событий в случае задержки репликации между основными и вторичными компонентами достигает максимально настроенной задержки.
Azure Stream Analytics, как потребитель с Центрами событий в качестве входных данных, может наблюдать задержку водяного знака в задании во время отработки отказа и может пропустить данные или найти дублирующиеся данные после завершения отработки отказа.
Из-за этих предостережения рекомендуется перезапустить задание Stream Analytics с соответствующим временем начала сразу после завершения отработки отказа Центров событий. Кроме того, так как функция георепликации Центров событий находится в общедоступной предварительной версии, мы не рекомендуем использовать этот шаблон для рабочих заданий Stream Analytics на данный момент. Текущее поведение Stream Analytics улучшится, прежде чем функция георепликации Центров событий общедоступна и может использоваться в рабочих заданиях Stream Analytics.
Следующие шаги
Теперь вы знаете, как использовать Stream Analytics без редактора кода для создания задания, которое записывает данные Центров событий для Azure Data Lake Storage 2-го поколения в формате Delta lake. Теперь вы можете ознакомиться с более подробной информацией о Azure Stream Analytics и о том, как выполнять мониторинг созданного задания.