Материализация данных в Azure Cosmos DB с помощью бескодового редактора Stream Analytics
В этой статье описывается, как использовать бескодовый редактор, чтобы упростить создание задания Stream Analytics. Задание непрерывно считывает данные из Центров событий и выполняет такие статистические функции, как подсчет, суммирование и расчет среднего. Вы выбираете поля для группирования по временному окну, после чего задание непрерывно записывает результаты в Azure Cosmos DB.
Необходимые компоненты
- Ресурсы Центров событий Azure и Azure Cosmos DB должны быть общедоступными, а не размещаться за брандмауэром или быть защищенными в виртуальной сети Azure
- Данные в Центрах событий должны быть сериализованы в формате JSON, CSV или Avro.
Разработка задания Stream Analytics
Выполните следующие действия для разработки задания Stream Analytics для материализации данных в Azure Cosmos DB.
- На портале Azure найдите и выберите экземпляр Центров событий Azure.
- В разделе Компоненты перейдите на вкладку Обработка данных. Затем нажмите кнопку "Пуск " в карточке с названием "Материализовать данные" в Azure Cosmos DB.
- Введите имя для задания, а затем нажмите кнопку Создать.
- Укажите тип сериализации данных в Центрах событий, а также способ проверки подлинности, который задание будет использовать для подключения к Центрам событий. В этом случае выберите Подключиться.
- Если подключение выполнено успешно, и у вас есть потоки данных, поступающие в экземпляр Центров событий, вы сразу увидите две вещи:
- Наличие полей в полезных входных данных. Выберите символ с тремя точками рядом с каждым полем, чтобы при необходимости удалить, переименовать или изменить тип данных поля.
- Пример входных данных на нижней панели в разделе предварительного просмотра данных, который периодически обновляется. Если вы предпочитаете использовать статическое представление примера входных данных, можно выбрать Приостановить потоковую передачу.
- Наличие полей в полезных входных данных. Выберите символ с тремя точками рядом с каждым полем, чтобы при необходимости удалить, переименовать или изменить тип данных поля.
- На следующем шаге необходимо указать поле и статистическое выражение, которое требуется вычислить, например, Average или Count. Вы также можете указать поле, по которому требуется выполнить группирования, и временное окно. Затем можно проверить результаты выполнения шага в разделе предварительного просмотра данных.
- Выберите базу данных Cosmos DB и контейнер для записи результатов.
- Запустите задание Stream Analytics, нажав кнопку Запустить.
Чтобы запустить задание, необходимо указать следующее:- Число единиц потоковой передачи, с которыми выполняется задание. Единицы потоковой передачи представляют объем вычислительных ресурсов и памяти, выделенных для задания. Мы рекомендуем начать с трех единиц, а затем при необходимости изменить это значение.
- Обработка ошибок выходных данных — позволяет указать нужное поведение, если вывод задания в место назначения завершатся сбоем из-за ошибок данных. По умолчанию задание повторяется до тех пор, пока операция записи не будет выполнена. Вы также можете удалять выходные события.
- Задание запустится в течение двух минут после нажатия кнопки Запустить. Просмотрите задание в разделе Обработка данных на вкладке "Задания Stream Analytics". Вы можете изучать метрики заданий, а также останавливать и перезапускать его по мере необходимости.
Рекомендации при использовании функции георепликации Центров событий
Центры событий Azure недавно запустили Функция георепликации в общедоступной предварительной версии. Эта функция отличается от функции географического аварийного восстановления Центры событий Azure.
Если тип отработки отказа является принудительной и согласованность репликации является асинхронной, задание Stream Analytics не гарантирует точно один раз выходных данных в Центры событий Azure выходных данных.
Azure Stream Analytics в качестве производителя с выходными данными концентратора событий может наблюдать задержку водяного знака в задании во время отработки отказа и во время регулирования центрами событий в случае задержки репликации между основными и вторичными компонентами достигает максимально настроенной задержки.
Azure Stream Analytics, как потребитель с Центрами событий в качестве входных данных, может наблюдать задержку водяного знака в задании во время отработки отказа и может пропустить данные или найти дублирующиеся данные после завершения отработки отказа.
Из-за этих предостережения рекомендуется перезапустить задание Stream Analytics с соответствующим временем начала сразу после завершения отработки отказа Центров событий. Кроме того, так как функция георепликации Центров событий находится в общедоступной предварительной версии, мы не рекомендуем использовать этот шаблон для рабочих заданий Stream Analytics на данный момент. Текущее поведение Stream Analytics улучшится, прежде чем функция георепликации Центров событий общедоступна и может использоваться в рабочих заданиях Stream Analytics.
Следующие шаги
Теперь вы знаете, как использовать Stream Analytics без редактора кода для разработки задания, которое считывается из Центров событий и вычисляет агрегаты, такие как счетчики, средние значения и записывает его в ресурс Azure Cosmos DB.