Фильтрация и прием данных в Azure Data Lake Storage 2-го поколения с помощью бескодового редактора Stream Analytics
В этой статье описывается, как использовать бескодовый редактор, чтобы упростить создание задания Stream Analytics. Это средство постоянно считывает данные из Центров событий, фильтрует входящие данные, а затем непрерывно записывает результаты в Azure Data Lake Storage 2-го поколения.
Необходимые компоненты
- Ресурсы Центров событий Azure должны быть общедоступными, а не размещенными за брандмауэром или защищенными в виртуальной сети Azure
- Данные в Центрах событий должны быть сериализованы в формате JSON, CSV или Avro.
Разработка задания Stream Analytics для фильтрации и приема данных в режиме реального времени
На портале Azure найдите и выберите экземпляр Центров событий Azure.
Выберите Возможности>Обработать данные, а затем нажмите кнопку Запустить на карточке Filter and ingest to ADLS Gen2 (Фильтрация и прием данных в ADLS 2-го поколения).
Введите имя задания Stream Analytics и нажмите кнопку Создать.
Укажите тип сериализации данных в окне Центров событий, а также способ проверки подлинности, который задание будет использовать для подключения к Центрам событий. В этом случае выберите Подключиться.
Если подключение установлено и в экземпляр Центров событий поступают потоки данных, вы сразу увидите две особенности:
- Наличие полей в входных данных. Вы можете нажать кнопку Добавить поле или выбрать символ с тремя точками рядом с каждым полем, чтобы удалить, переименовать его или изменить его тип.
- Динамический пример входящих данных в таблице Предварительный просмотр данных в представлении диаграммы. Она автоматически периодически обновляется. Вы можете выбрать Приостановить предварительный просмотр потоковой передачи, чтобы увидеть статическое представление примера входных данных.
- Наличие полей в входных данных. Вы можете нажать кнопку Добавить поле или выбрать символ с тремя точками рядом с каждым полем, чтобы удалить, переименовать его или изменить его тип.
Выберите плитку Фильтр. В области Фильтр выберите поле для фильтрации входящих данных с помощью условия.
Выберите плитку Azure Data Lake Storage 2-го поколения. Выберите учетную запись Azure Data Lake 2-го поколения для отправки отфильтрованных данных:
- В раскрывающемся меню выберите подписку, имя учетной записи хранения и контейнер.
- После выбора подписки значения для способа проверки подлинности и ключа учетной записи хранения должны быть заданы автоматически. Нажмите Подключиться.
Дополнительные сведения о полях и примеры шаблона пути см. в статье Вывод данных из Azure Stream Analytics в хранилище BLOB-объектов или Azure Data Lake Storage 2-го поколения.
При необходимости выберите "Получить статический предварительный просмотр" или "Обновление статического предварительного просмотра", чтобы просмотреть предварительную версию данных, которые будут получены из Azure Data Lake Storage 2-го поколения.
Нажмите кнопку Сохранить, а затем выберите Запустить для задания Stream Analytics.
Чтобы запустить задание, укажите количество единиц потоковой передачи, с которыми выполняется задание. Единицы потоковой передачи представляют объем вычислительных ресурсов и памяти, выделенных для задания. Мы рекомендуем начать с трех единиц, а затем при необходимости изменить это значение.
После нажатия кнопки "Пуск" задание запускается в течение двух минут, а метрики будут открыты в разделе вкладки ниже.
Задание можно просмотреть в разделе обработки данных на вкладке Задания Stream Analytics. Нажимайте кнопку Обновить, пока не отобразится состояние задания Выполняется. Выберите Open metrics (Открыть метрики), чтобы отслеживать задание или остановить и перезапустить его, если это необходимо.
Вот пример страницы Метрики:
Проверка данных в Data Lake Storage
В указанном контейнере должны отображаться созданные файлы.
Скачайте и откройте файл, чтобы убедиться, что отображаются только отфильтрованные данные. В следующем примере отображаются данные с параметром SwitchNum, установленным в значение US.
{"RecordType":"MO","SystemIdentity":"d0","FileNum":"548","SwitchNum":"US","CallingNum":"345697969","CallingIMSI":"466921402416657","CalledNum":"012332886","CalledIMSI":"466923101048691","DateS":"20220524","TimeType":0,"CallPeriod":0,"ServiceType":"S","Transfer":0,"OutgoingTrunk":"419","MSRN":"1416960750071","callrecTime":"2022-05-25T02:07:10Z","EventProcessedUtcTime":"2022-05-25T02:07:50.5478116Z","PartitionId":0,"EventEnqueuedUtcTime":"2022-05-25T02:07:09.5140000Z", "TimeS":null,"CallingCellID":null,"CalledCellID":null,"IncomingTrunk":null,"CalledNum2":null,"FCIFlag":null} {"RecordType":"MO","SystemIdentity":"d0","FileNum":"552","SwitchNum":"US","CallingNum":"012351287","CallingIMSI":"262021390056324","CalledNum":"012301973","CalledIMSI":"466922202613463","DateS":"20220524","TimeType":3,"CallPeriod":0,"ServiceType":"V","Transfer":0,"OutgoingTrunk":"442","MSRN":"886932428242","callrecTime":"2022-05-25T02:07:13Z","EventProcessedUtcTime":"2022-05-25T02:07:50.5478116Z","PartitionId":0,"EventEnqueuedUtcTime":"2022-05-25T02:07:12.7350000Z", "TimeS":null,"CallingCellID":null,"CalledCellID":null,"IncomingTrunk":null,"CalledNum2":null,"FCIFlag":null} {"RecordType":"MO","SystemIdentity":"d0","FileNum":"559","SwitchNum":"US","CallingNum":"456757102","CallingIMSI":"466920401237309","CalledNum":"345617823","CalledIMSI":"466923000886460","DateS":"20220524","TimeType":1,"CallPeriod":696,"ServiceType":"V","Transfer":1,"OutgoingTrunk":"419","MSRN":"886932429155","callrecTime":"2022-05-25T02:07:22Z","EventProcessedUtcTime":"2022-05-25T02:07:50.5478116Z","PartitionId":0,"EventEnqueuedUtcTime":"2022-05-25T02:07:21.9190000Z", "TimeS":null,"CallingCellID":null,"CalledCellID":null,"IncomingTrunk":null,"CalledNum2":null,"FCIFlag":null}
Рекомендации при использовании функции георепликации Центров событий
Центры событий Azure недавно запустили Функция георепликации в общедоступной предварительной версии. Эта функция отличается от функции географического аварийного восстановления Центры событий Azure.
Если тип отработки отказа является принудительной и согласованность репликации является асинхронной, задание Stream Analytics не гарантирует точно один раз выходных данных в Центры событий Azure выходных данных.
Azure Stream Analytics в качестве производителя с выходными данными концентратора событий может наблюдать задержку водяного знака в задании во время отработки отказа и во время регулирования центрами событий в случае задержки репликации между основными и вторичными компонентами достигает максимально настроенной задержки.
Azure Stream Analytics, как потребитель с Центрами событий в качестве входных данных, может наблюдать задержку водяного знака в задании во время отработки отказа и может пропустить данные или найти дублирующиеся данные после завершения отработки отказа.
Из-за этих предостережения рекомендуется перезапустить задание Stream Analytics с соответствующим временем начала сразу после завершения отработки отказа Центров событий. Кроме того, так как функция георепликации Центров событий находится в общедоступной предварительной версии, мы не рекомендуем использовать этот шаблон для рабочих заданий Stream Analytics на данный момент. Текущее поведение Stream Analytics улучшится, прежде чем функция георепликации Центров событий общедоступна и может использоваться в рабочих заданиях Stream Analytics.
Следующие шаги
Узнайте больше об Azure Stream Analytics и о том, как выполнять мониторинг созданного задания.