Бөлісу құралы:


Запись данных из Центров событий в формате Parquet

В этой статье объясняется, как использовать редактор кода для автоматического записи потоковых данных в Центрах событий в учетной записи Azure Data Lake Storage 2-го поколения в формате Parquet.

Необходимые компоненты

  • Пространство имен Центры событий Azure с концентратором событий и учетной записью Azure Data Lake Storage 2-го поколения с контейнером для хранения захваченных данных. Эти ресурсы должны быть общедоступными и не могут находиться за брандмауэром или защищены в виртуальной сети Azure.

    Если у вас нет концентратора событий, создайте один из следующих инструкций из краткого руководства. Создание концентратора событий.

    Если у вас нет учетной записи Data Lake Storage 2-го поколения, создайте ее, следуя инструкциям из руководства по созданию учетной записи хранения.

  • Данные в Центрах событий должны быть сериализованы в формате JSON, CSV или Avro. В целях тестирования выберите "Создать данные (предварительная версия) в меню слева, выберите "Акции " для набора данных и нажмите кнопку "Отправить".

    Снимок экрана: страница

Настройка задания для записи данных

Чтобы настроить задание Stream Analytics для записи данных в Azure Data Lake Storage 2-го поколения, выполните следующие действия.

  1. На портале Azure перейдите к концентратору событий.

  2. В меню слева выберите "Обработка данных " в разделе "Компоненты". Затем нажмите кнопку "Пуск " в adLS 2-го поколения в карточке формата Parquet.

    Снимок экрана: карточки для начала обработки данных Центров событий.

  3. Введите имя задания Stream Analytics и нажмите кнопку "Создать".

    Снимок экрана: окно

  4. Укажите тип сериализации данных в центрах событий и метод проверки подлинности, который задание использует для подключения к Центрам событий. В этом случае выберите Подключиться.

    Снимок экрана: конфигурация подключения Центров событий.

  5. После успешной установки подключения вы увидите:

    • Наличие полей в входных данных. Вы можете нажать кнопку Добавить поле или выбрать символ с тремя точками рядом с каждым полем, чтобы при необходимости удалить, переименовать его или изменить его имя.

    • Динамический пример входящих данных в таблице Предварительный просмотр данных в представлении диаграммы. Он периодически обновляется. Вы можете выбрать Приостановить предварительный просмотр потоковой передачи, чтобы просмотреть статическое представление примера входных данных.

      Снимок экрана: пример данных на вкладке

  6. Выберите плитку Azure Data Lake Storage 2-го поколения, чтобы изменить конфигурацию.

  7. На странице настройки Azure Data Lake Storage 2-го поколения сделайте следующее:

    1. В раскрывающемся меню выберите подписку, имя учетной записи хранения и контейнер.

    2. После выбора подписки значения для способа проверки подлинности и ключа учетной записи хранения должны быть заданы автоматически.

    3. Выберите Parquet для формата сериализации .

      Снимок экрана: страница конфигурации Data Lake Storage 2-го поколения.

    4. Для потоковой передачи больших двоичных объектов шаблон пути к каталогу должен представлять собой динамическое значение. Дата должна быть частью пути к файлу для большого двоичного объекта, на который ссылаются как {date}. Дополнительные сведения о пользовательских шаблонах путей см. в статье Секционирование выходных данных пользовательского большого двоичного объекта Azure Stream Analytics.

      Снимок экрана: окно

    5. Выберите Подключиться.

  8. При установке подключения отображаются поля, которые присутствуют в выходных данных.

  9. Выберите команду Сохранить на панели команд, чтобы сохранить конфигурацию.

    Снимок экрана: кнопка

  10. Выберите команду Запустить на панели команд, чтобы запустить потоковую передачу для записи данных. Затем в окне запуска задания Stream Analytics выполните следующие действия.

    1. Выберите время начала создания выходных данных.

    2. Выберите тарифный план.

    3. Выберите число единиц потоковой передачи, с которыми выполняется задание. Единицы потоковой передачи представляют вычислительные ресурсы, выделяемые для выполнения задания Stream Analytics. Дополнительные сведения см. в разделе Единицы потоковой передачи в Azure Stream Analytics.

      Снимок экрана: окно

  11. Вы увидите задание Stream Analytic на вкладке задания Stream Analytics на странице данных обработки для концентратора событий.

    Снимок экрана: задание Stream Analytics на странице данных обработки.

Проверка выходных данных

  1. На странице экземпляра Центров событий для концентратора событий выберите "Создать данные", выберите "Акции " для набора данных и нажмите кнопку "Отправить ", чтобы отправить некоторые примеры данных в концентратор событий.

  2. Убедитесь, что файлы Parquet создаются в контейнере Azure Data Lake Storage.

    Снимок экрана: созданные файлы Parquet в контейнере Azure Data Lake Storage.

  3. Выберите "Обработка данных " в меню слева. Перейдите на вкладку заданий Stream Analytics. Выберите "Открыть метрики " для мониторинга.

    Снимок экрана: выделенная ссылка

    Ниже приведен пример снимка экрана метрик с событиями ввода и вывода.

    Снимок экрана: метрики задания Stream Analytics.

Рекомендации при использовании функции георепликации Центров событий

Центры событий Azure недавно запустили Функция георепликации в общедоступной предварительной версии. Эта функция отличается от функции географического аварийного восстановления Центры событий Azure.

Если тип отработки отказа является принудительной и согласованность репликации является асинхронной, задание Stream Analytics не гарантирует точно один раз выходных данных в Центры событий Azure выходных данных.

Azure Stream Analytics в качестве производителя с выходными данными концентратора событий может наблюдать задержку водяного знака в задании во время отработки отказа и во время регулирования центрами событий в случае задержки репликации между основными и вторичными компонентами достигает максимально настроенной задержки.

Azure Stream Analytics, как потребитель с Центрами событий в качестве входных данных, может наблюдать задержку водяного знака в задании во время отработки отказа и может пропустить данные или найти дублирующиеся данные после завершения отработки отказа.

Из-за этих предостережения рекомендуется перезапустить задание Stream Analytics с соответствующим временем начала сразу после завершения отработки отказа Центров событий. Кроме того, так как функция георепликации Центров событий находится в общедоступной предварительной версии, мы не рекомендуем использовать этот шаблон для рабочих заданий Stream Analytics на данный момент. Текущее поведение Stream Analytics улучшится, прежде чем функция георепликации Центров событий общедоступна и может использоваться в рабочих заданиях Stream Analytics.

Следующие шаги

Теперь вы знаете, как использовать бескодовый редактор Stream Analytics для создания задания, которое записывает данные Центров событий в Azure Data Lake Storage 2-го поколения в формате Parquet. Теперь вы можете ознакомиться с более подробной информацией о Azure Stream Analytics и о том, как выполнять мониторинг созданного задания.