Бөлісу құралы:


Фильтрация и прием данных в Azure Data Lake Storage 2-го поколения с помощью бескодового редактора Stream Analytics

В этой статье описывается, как использовать бескодовый редактор, чтобы упростить создание задания Stream Analytics. Это средство постоянно считывает данные из Центров событий, фильтрует входящие данные, а затем непрерывно записывает результаты в Azure Data Lake Storage 2-го поколения.

Необходимые компоненты

  • Ресурсы Центров событий Azure должны быть общедоступными, а не размещенными за брандмауэром или защищенными в виртуальной сети Azure
  • Данные в Центрах событий должны быть сериализованы в формате JSON, CSV или Avro.

Разработка задания Stream Analytics для фильтрации и приема данных в режиме реального времени

  1. На портале Azure найдите и выберите экземпляр Центров событий Azure.

  2. Выберите Возможности>Обработать данные, а затем нажмите кнопку Запустить на карточке Filter and ingest to ADLS Gen2 (Фильтрация и прием данных в ADLS 2-го поколения).
    Снимок экрана: кнопка

  3. Введите имя задания Stream Analytics и нажмите кнопку Создать.
    Снимок экрана, на котором показано, где нужно ввести имя задания.

  4. Укажите тип сериализации данных в окне Центров событий, а также способ проверки подлинности, который задание будет использовать для подключения к Центрам событий. В этом случае выберите Подключиться.
    Снимок экрана: область

  5. Если подключение установлено и в экземпляр Центров событий поступают потоки данных, вы сразу увидите две особенности:

    1. Наличие полей в входных данных. Вы можете нажать кнопку Добавить поле или выбрать символ с тремя точками рядом с каждым полем, чтобы удалить, переименовать его или изменить его тип.
      Снимок экрана, на котором показано, где можно добавить поле или удалить, переименовать и изменить тип поля.
    2. Динамический пример входящих данных в таблице Предварительный просмотр данных в представлении диаграммы. Она автоматически периодически обновляется. Вы можете выбрать Приостановить предварительный просмотр потоковой передачи, чтобы увидеть статическое представление примера входных данных.
      Снимок экрана: пример данных на вкладке
  6. Выберите плитку Фильтр. В области Фильтр выберите поле для фильтрации входящих данных с помощью условия.
    Снимок экрана: область

  7. Выберите плитку Azure Data Lake Storage 2-го поколения. Выберите учетную запись Azure Data Lake 2-го поколения для отправки отфильтрованных данных:

    1. В раскрывающемся меню выберите подписку, имя учетной записи хранения и контейнер.
    2. После выбора подписки значения для способа проверки подлинности и ключа учетной записи хранения должны быть заданы автоматически. Нажмите Подключиться.
      Дополнительные сведения о полях и примеры шаблона пути см. в статье Вывод данных из Azure Stream Analytics в хранилище BLOB-объектов или Azure Data Lake Storage 2-го поколения.
      Снимок экрана: параметры конфигурации подключения контейнера BLOB-объектов Azure Data Lake Storage 2-го поколения.
  8. При необходимости выберите "Получить статический предварительный просмотр" или "Обновление статического предварительного просмотра", чтобы просмотреть предварительную версию данных, которые будут получены из Azure Data Lake Storage 2-го поколения.
    Снимок экрана: предварительный просмотр данных и параметр

  9. Нажмите кнопку Сохранить, а затем выберите Запустить для задания Stream Analytics.
    Снимок экрана: кнопки

  10. Чтобы запустить задание, укажите количество единиц потоковой передачи, с которыми выполняется задание. Единицы потоковой передачи представляют объем вычислительных ресурсов и памяти, выделенных для задания. Мы рекомендуем начать с трех единиц, а затем при необходимости изменить это значение.

  11. После нажатия кнопки "Пуск" задание запускается в течение двух минут, а метрики будут открыты в разделе вкладки ниже.

    Снимок экрана: окно

    Задание можно просмотреть в разделе обработки данных на вкладке Задания Stream Analytics. Нажимайте кнопку Обновить, пока не отобразится состояние задания Выполняется. Выберите Open metrics (Открыть метрики), чтобы отслеживать задание или остановить и перезапустить его, если это необходимо.

    Снимок экрана: вкладка

    Вот пример страницы Метрики:

    Снимок экрана: страница

Проверка данных в Data Lake Storage

  1. В указанном контейнере должны отображаться созданные файлы.

    Снимок экрана: созданный файл с отфильтрованными данными в Azure Data Lake Storage.

  2. Скачайте и откройте файл, чтобы убедиться, что отображаются только отфильтрованные данные. В следующем примере отображаются данные с параметром SwitchNum, установленным в значение US.

    {"RecordType":"MO","SystemIdentity":"d0","FileNum":"548","SwitchNum":"US","CallingNum":"345697969","CallingIMSI":"466921402416657","CalledNum":"012332886","CalledIMSI":"466923101048691","DateS":"20220524","TimeType":0,"CallPeriod":0,"ServiceType":"S","Transfer":0,"OutgoingTrunk":"419","MSRN":"1416960750071","callrecTime":"2022-05-25T02:07:10Z","EventProcessedUtcTime":"2022-05-25T02:07:50.5478116Z","PartitionId":0,"EventEnqueuedUtcTime":"2022-05-25T02:07:09.5140000Z", "TimeS":null,"CallingCellID":null,"CalledCellID":null,"IncomingTrunk":null,"CalledNum2":null,"FCIFlag":null}
    {"RecordType":"MO","SystemIdentity":"d0","FileNum":"552","SwitchNum":"US","CallingNum":"012351287","CallingIMSI":"262021390056324","CalledNum":"012301973","CalledIMSI":"466922202613463","DateS":"20220524","TimeType":3,"CallPeriod":0,"ServiceType":"V","Transfer":0,"OutgoingTrunk":"442","MSRN":"886932428242","callrecTime":"2022-05-25T02:07:13Z","EventProcessedUtcTime":"2022-05-25T02:07:50.5478116Z","PartitionId":0,"EventEnqueuedUtcTime":"2022-05-25T02:07:12.7350000Z", "TimeS":null,"CallingCellID":null,"CalledCellID":null,"IncomingTrunk":null,"CalledNum2":null,"FCIFlag":null}
    {"RecordType":"MO","SystemIdentity":"d0","FileNum":"559","SwitchNum":"US","CallingNum":"456757102","CallingIMSI":"466920401237309","CalledNum":"345617823","CalledIMSI":"466923000886460","DateS":"20220524","TimeType":1,"CallPeriod":696,"ServiceType":"V","Transfer":1,"OutgoingTrunk":"419","MSRN":"886932429155","callrecTime":"2022-05-25T02:07:22Z","EventProcessedUtcTime":"2022-05-25T02:07:50.5478116Z","PartitionId":0,"EventEnqueuedUtcTime":"2022-05-25T02:07:21.9190000Z", "TimeS":null,"CallingCellID":null,"CalledCellID":null,"IncomingTrunk":null,"CalledNum2":null,"FCIFlag":null}
    

Рекомендации при использовании функции георепликации Центров событий

Центры событий Azure недавно запустили Функция георепликации в общедоступной предварительной версии. Эта функция отличается от функции географического аварийного восстановления Центры событий Azure.

Если тип отработки отказа является принудительной и согласованность репликации является асинхронной, задание Stream Analytics не гарантирует точно один раз выходных данных в Центры событий Azure выходных данных.

Azure Stream Analytics в качестве производителя с выходными данными концентратора событий может наблюдать задержку водяного знака в задании во время отработки отказа и во время регулирования центрами событий в случае задержки репликации между основными и вторичными компонентами достигает максимально настроенной задержки.

Azure Stream Analytics, как потребитель с Центрами событий в качестве входных данных, может наблюдать задержку водяного знака в задании во время отработки отказа и может пропустить данные или найти дублирующиеся данные после завершения отработки отказа.

Из-за этих предостережения рекомендуется перезапустить задание Stream Analytics с соответствующим временем начала сразу после завершения отработки отказа Центров событий. Кроме того, так как функция георепликации Центров событий находится в общедоступной предварительной версии, мы не рекомендуем использовать этот шаблон для рабочих заданий Stream Analytics на данный момент. Текущее поведение Stream Analytics улучшится, прежде чем функция георепликации Центров событий общедоступна и может использоваться в рабочих заданиях Stream Analytics.

Следующие шаги

Узнайте больше об Azure Stream Analytics и о том, как выполнять мониторинг созданного задания.