Запись данных из Центров событий в формате Parquet
В этой статье объясняется, как использовать редактор кода для автоматического записи потоковых данных в Центрах событий в учетной записи Azure Data Lake Storage 2-го поколения в формате Parquet.
Необходимые компоненты
Пространство имен Центры событий Azure с концентратором событий и учетной записью Azure Data Lake Storage 2-го поколения с контейнером для хранения захваченных данных. Эти ресурсы должны быть общедоступными и не могут находиться за брандмауэром или защищены в виртуальной сети Azure.
Если у вас нет концентратора событий, создайте один из следующих инструкций из краткого руководства. Создание концентратора событий.
Если у вас нет учетной записи Data Lake Storage 2-го поколения, создайте ее, следуя инструкциям из руководства по созданию учетной записи хранения.
Данные в Центрах событий должны быть сериализованы в формате JSON, CSV или Avro. В целях тестирования выберите "Создать данные (предварительная версия) в меню слева, выберите "Акции " для набора данных и нажмите кнопку "Отправить".
Настройка задания для записи данных
Чтобы настроить задание Stream Analytics для записи данных в Azure Data Lake Storage 2-го поколения, выполните следующие действия.
На портале Azure перейдите к концентратору событий.
В меню слева выберите "Обработка данных " в разделе "Компоненты". Затем нажмите кнопку "Пуск " в adLS 2-го поколения в карточке формата Parquet.
Введите имя задания Stream Analytics и нажмите кнопку "Создать".
Укажите тип сериализации данных в центрах событий и метод проверки подлинности, который задание использует для подключения к Центрам событий. В этом случае выберите Подключиться.
После успешной установки подключения вы увидите:
Наличие полей в входных данных. Вы можете нажать кнопку Добавить поле или выбрать символ с тремя точками рядом с каждым полем, чтобы при необходимости удалить, переименовать его или изменить его имя.
Динамический пример входящих данных в таблице Предварительный просмотр данных в представлении диаграммы. Он периодически обновляется. Вы можете выбрать Приостановить предварительный просмотр потоковой передачи, чтобы просмотреть статическое представление примера входных данных.
Выберите плитку Azure Data Lake Storage 2-го поколения, чтобы изменить конфигурацию.
На странице настройки Azure Data Lake Storage 2-го поколения сделайте следующее:
В раскрывающемся меню выберите подписку, имя учетной записи хранения и контейнер.
После выбора подписки значения для способа проверки подлинности и ключа учетной записи хранения должны быть заданы автоматически.
Выберите Parquet для формата сериализации .
Для потоковой передачи больших двоичных объектов шаблон пути к каталогу должен представлять собой динамическое значение. Дата должна быть частью пути к файлу для большого двоичного объекта, на который ссылаются как
{date}
. Дополнительные сведения о пользовательских шаблонах путей см. в статье Секционирование выходных данных пользовательского большого двоичного объекта Azure Stream Analytics.Выберите Подключиться.
При установке подключения отображаются поля, которые присутствуют в выходных данных.
Выберите команду Сохранить на панели команд, чтобы сохранить конфигурацию.
Выберите команду Запустить на панели команд, чтобы запустить потоковую передачу для записи данных. Затем в окне запуска задания Stream Analytics выполните следующие действия.
Выберите время начала создания выходных данных.
Выберите тарифный план.
Выберите число единиц потоковой передачи, с которыми выполняется задание. Единицы потоковой передачи представляют вычислительные ресурсы, выделяемые для выполнения задания Stream Analytics. Дополнительные сведения см. в разделе Единицы потоковой передачи в Azure Stream Analytics.
Вы увидите задание Stream Analytic на вкладке задания Stream Analytics на странице данных обработки для концентратора событий.
Проверка выходных данных
На странице экземпляра Центров событий для концентратора событий выберите "Создать данные", выберите "Акции " для набора данных и нажмите кнопку "Отправить ", чтобы отправить некоторые примеры данных в концентратор событий.
Убедитесь, что файлы Parquet создаются в контейнере Azure Data Lake Storage.
Выберите "Обработка данных " в меню слева. Перейдите на вкладку заданий Stream Analytics. Выберите "Открыть метрики " для мониторинга.
Ниже приведен пример снимка экрана метрик с событиями ввода и вывода.
Рекомендации при использовании функции георепликации Центров событий
Центры событий Azure недавно запустили Функция георепликации в общедоступной предварительной версии. Эта функция отличается от функции географического аварийного восстановления Центры событий Azure.
Если тип отработки отказа является принудительной и согласованность репликации является асинхронной, задание Stream Analytics не гарантирует точно один раз выходных данных в Центры событий Azure выходных данных.
Azure Stream Analytics в качестве производителя с выходными данными концентратора событий может наблюдать задержку водяного знака в задании во время отработки отказа и во время регулирования центрами событий в случае задержки репликации между основными и вторичными компонентами достигает максимально настроенной задержки.
Azure Stream Analytics, как потребитель с Центрами событий в качестве входных данных, может наблюдать задержку водяного знака в задании во время отработки отказа и может пропустить данные или найти дублирующиеся данные после завершения отработки отказа.
Из-за этих предостережения рекомендуется перезапустить задание Stream Analytics с соответствующим временем начала сразу после завершения отработки отказа Центров событий. Кроме того, так как функция георепликации Центров событий находится в общедоступной предварительной версии, мы не рекомендуем использовать этот шаблон для рабочих заданий Stream Analytics на данный момент. Текущее поведение Stream Analytics улучшится, прежде чем функция георепликации Центров событий общедоступна и может использоваться в рабочих заданиях Stream Analytics.
Следующие шаги
Теперь вы знаете, как использовать бескодовый редактор Stream Analytics для создания задания, которое записывает данные Центров событий в Azure Data Lake Storage 2-го поколения в формате Parquet. Теперь вы можете ознакомиться с более подробной информацией о Azure Stream Analytics и о том, как выполнять мониторинг созданного задания.