Общие сведения о приеме данных в Azure Data Explorer
Прием данных включает загрузку данных в таблицу в кластере. Azure Data Explorer обеспечивает допустимость данных, преобразует форматы по мере необходимости и выполняет такие манипуляции, как сопоставление схем, организация, индексирование, кодировка и сжатие. После приема данные будут доступны для запроса.
Azure Data Explorer предлагает однократное прием или создание конвейера непрерывного приема данных с помощью потоковой передачи или приема в очереди. Чтобы определить, что подходит для вас, ознакомьтесь с однократным приемом данных и непрерывным приемом данных.
Примечание.
Данные сохраняются в хранилище в соответствии с заданной политикой хранения.
Одноразовая прием данных
Однократное прием полезно для передачи исторических данных, заполнения недостающих данных и начальных этапов создания прототипов и анализа данных. Такой подход упрощает быструю интеграцию данных без необходимости непрерывного выполнения обязательств по конвейеру.
Существует несколько способов однократного приема данных. Используйте следующее дерево принятия решений, чтобы определить наиболее подходящий вариант для вашего варианта использования:
Дополнительные сведения см. в соответствующей документации:
Выноска | Соответствующая документация |
---|---|
См. форматы данных, поддерживаемые Azure Data Explorer, для приема. | |
См. форматы файлов, поддерживаемые для конвейеров Фабрика данных Azure. | |
Сведения о импорте данных из существующей системы хранения см. в статье "Прием исторических данных" в Azure Data Explorer. | |
В веб-интерфейсе Azure Data Explorer можно получить данные из локального файла, Amazon S3 или служба хранилища Azure. | |
Сведения об интеграции с Фабрика данных Azure см. в статье "Копирование данных в Azure Data Explorer с помощью Фабрика данных Azure". | |
Клиентские библиотеки Kusto доступны для C#, Python, Java, JavaScript, TypeScript и Go. Вы можете написать код для управления данными, а затем использовать библиотеку Приема Kusto для приема данных в таблицу Azure Data Explorer. Данные должны находиться в одном из поддерживаемых форматов перед приемом. |
Непрерывный прием данных
Непрерывное прием в ситуациях, требующих немедленной аналитики от динамических данных. Например, непрерывная приемка полезна для систем мониторинга, данных журналов и событий и аналитики в режиме реального времени.
Непрерывная прием данных включает настройку конвейера приема с помощью потоковой передачи или приема в очередь:
Прием потоковой передачи. Этот метод обеспечивает задержку практически в реальном времени для небольших наборов данных на таблицу. Данные передаются в микропакетах из источника потоковой передачи, первоначально помещаются в хранилище строк, а затем передаются в экстенты хранилища столбцов. Дополнительные сведения см. в разделе "Настройка приема потоковой передачи".
Прием в очереди: этот метод оптимизирован для высокой пропускной способности приема. Данные пакетируются на основе свойств приема, при этом небольшие пакеты затем объединяются и оптимизированы для быстрого выполнения запросов. По умолчанию максимальное значение очереди составляет 5 минут, 1000 элементов или общий размер 1 ГБ. Ограничение размера данных для команды приема в очереди составляет 6 ГБ. Этот метод использует механизмы повторных попыток для устранения временных сбоев и следует семантике обмена сообщениями по крайней мере один раз, чтобы гарантировать, что сообщения не будут потеряны в процессе. Дополнительные сведения о приеме в очереди см . в политике пакетной обработки приема.
Примечание.
Для большинства сценариев рекомендуется использовать прием в очереди, так как это более быстрый вариант.
Существует несколько способов настройки непрерывного приема данных. Используйте следующее дерево принятия решений, чтобы определить наиболее подходящий вариант для вашего варианта использования:
Дополнительные сведения см. в соответствующей документации:
Выноска | Соответствующая документация |
---|---|
Список соединителей см. в разделе "Общие сведения о соединителях". | |
Создайте подключение к данным Центров событий. Интеграция с Центрами событий предоставляет такие службы, как регулирование, повторные попытки, мониторинг и оповещения. | |
Прием данных из Apache Kafka— распределенной платформы потоковой передачи для создания конвейеров потоковой передачи в режиме реального времени. | |
Создайте подключение к данным Центр Интернета вещей. Интеграция с Центр Интернета вещей предоставляет такие службы, как регулирование, повторные попытки, мониторинг и оповещения. | |
Создайте подключение к данным сетки событий. Интеграция с сеткой событий предоставляет такие службы, как регулирование, повторные попытки, мониторинг и оповещения. | |
Дополнительные сведения см. в руководстве по соответствующему соединителю, например Apache Spark, Apache Kafka, Azure Cosmos DB, Fluent Bit, Logstash, Open Telemetry, Power Automate, Splunk и т. д. Дополнительные сведения см. в разделе "Общие сведения о соединителях". | |
Клиентские библиотеки Kusto доступны для C#, Python, Java, JavaScript, TypeScript и Go. Вы можете написать код для управления данными, а затем использовать библиотеку Приема Kusto для приема данных в таблицу Azure Data Explorer. Данные должны находиться в одном из поддерживаемых форматов перед приемом. |
Примечание.
Прием потоковой передачи не поддерживается для всех методов приема. Дополнительные сведения о поддержке см. в документации по конкретному методу приема.
Прямое прием с помощью команд управления
Azure Data Explorer предлагает следующие команды управления приемом, которые будут получать данные непосредственно в кластер, а не использовать службу управления данными. Они должны использоваться только для изучения и прототипа, а не в рабочих или высокоуровневых сценариях.
- Встроенное прием: команда приема в виде встроенной строки содержит данные для приема в сам текст команды. Этот метод предназначен для импровизированного тестирования.
- Прием из запроса: команда .set, .append, .set-or-append или .set-or-replace косвенно указывает данные для приема в качестве результатов запроса или команды.
- Прием из хранилища: прием .ingest в команду получает данные для приема из внешнего хранилища, например Хранилище BLOB-объектов Azure, доступных кластером и на которые указывает команда.
Примечание.
В случае сбоя прием выполняется снова и повторно выполняется и выполняется повторное выполнение до 48 часов с использованием экспоненциального метода обратного отработки времени ожидания между попытками.
Сравнение методов приема
В следующей таблице сравниваются основные методы приема:
Название метода приема | Тип данных | Максимальный размер файла | Потоковая передача, очередь, прямая | Самые распространенные сценарии | Рекомендации |
---|---|---|---|---|---|
Соединитель Apache Spark | Все форматы, поддерживаемые средой Spark | Не ограничено | В очереди | Существующий конвейер, предварительная обработка в Spark перед приемом, быстрый способ создания безопасного конвейера потоковой передачи (Spark) из различных источников, поддерживаемых средой Spark. | Учитывайте стоимость кластера Spark. Если требуется функция пакетной записи, сравните возможности с предоставляемыми подключением к данным Data Explorer для службы "Сетка событий". Если требуется потоковая передача Spark, сравните возможности с предоставляемым подключением к данным для концентратора событий. |
Фабрика данных Azure (ADF) | Поддерживаемые форматы данных | Без ограничений. Наследует ограничения ADF. | В очереди или на триггер ADF | Поддерживает форматы, неподдерживаемые, такие как Excel и XML, и могут копировать большие файлы из более чем 90 источников из перма в облако. | Для приема данных с помощью этого метода требуется относительно больше времени. ADF передает все данные в память, а затем начинает прием. |
Сетка событий | Поддерживаемые форматы данных | 1 ГБ без сжатия | В очереди | Непрерывный прием из службы хранилища Azure, внешние данные в службе хранилища Azure | Прием можно активировать с помощью действий по переименованию или созданию BLOB-объектов |
Концентратор событий | Поддерживаемые форматы данных | Н/П | Очереди, потоковая передача | Сообщения, события | |
Получение интерфейса с данными | *SV, JSON | 1 ГБ без сжатия | Прием в очереди или прямой прием | Однократный прием, создание схемы таблицы, определение непрерывного приема с помощью Сетки событий, массовый прием с помощью контейнера (до 5000 BLOB-объектов; без ограничений для приема данных за прошлые периоды) | |
Центр IoT | Поддерживаемые форматы данных | Н/П | Очереди, потоковая передача | Сообщения, события, свойства Интернета вещей | |
Соединитель Kafka | Avro, ApacheAvro, JSON, CSV, Parquet и ORC | Без ограничений. Наследует ограничения Java. | Очереди, потоковая передача | Существующий конвейер, большой объем потребления из источника. | Предпочтения можно определить с помощью существующего использования нескольких производителей или службы потребителей или требуемого уровня управления службами. |
Клиентские библиотеки Kusto | Поддерживаемые форматы данных | 1 ГБ без сжатия | Очереди, потоковая передача, прямая | Написание собственного кода в соответствии с потребностями организации | Программное прием оптимизировано для снижения затрат на прием (COG), минимизируя транзакции хранения во время и после процесса приема. |
LightIngest | Поддерживаемые форматы данных | 1 ГБ без сжатия | Прием в очереди или прямой прием | Миграция данных, исторические данные с скорректированными метками времени приема, массовое прием | Учитывает регистр и учитывает пробелы |
Логические приложения | Поддерживаемые форматы данных | 1 ГБ без сжатия | В очереди | Используется для автоматизации конвейеров. | |
LogStash | JSON | Без ограничений. Наследует ограничения Java. | В очереди | Существующий конвейер, используйте зрелый открытый код характер Logstash для потребления большого объема из входных данных. | Предпочтения можно определить с помощью существующего использования нескольких производителей или службы потребителей или требуемого уровня управления службами. |
Power Automate | Поддерживаемые форматы данных | 1 ГБ без сжатия | В очереди | Команды приема как часть потока. Используется для автоматизации конвейеров. |
Дополнительные сведения о других соединителях см. в разделе "Общие сведения о соединителях".
Разрешения
В следующем списке описаны разрешения, необходимые для различных сценариев приема:
- Чтобы создать новую таблицу, требуется по крайней мере разрешения пользователя базы данных.
- Для приема данных в существующую таблицу, не изменяя ее схему, требуются по крайней мере разрешения Ingestor базы данных.
- Чтобы изменить схему существующей таблицы, требуются по крайней мере разрешения администратора таблицы или администратора базы данных.
Дополнительные сведения см. в разделе "Управление доступом на основе ролей Kusto".
Процесс приема
Ниже описан общий процесс приема:
Установка политики пакетной обработки (необязательно) — данные пакетируются на основе политики пакетного приема. Инструкции см. в разделе "Оптимизация для пропускной способности".
Задайте политику хранения (необязательно): если политика хранения базы данных не подходит для ваших потребностей, переопределите ее на уровне таблицы. Дополнительные сведения см. в статье Retention policy (Политика хранения).
Создайте таблицу: если вы используете интерфейс получения данных, вы можете создать таблицу в рамках потока приема. В противном случае создайте таблицу перед приемом в веб-интерфейсе Azure Data Explorer или с помощью команды create table.
Создание сопоставления схемы: сопоставления схем помогают привязать поля исходных данных к столбцам целевой таблицы. Поддерживаются различные типы сопоставлений, включая форматы, ориентированные на строки, такие как CSV, JSON и AVRO, а также форматы, ориентированные на столбцы, такие как Parquet. В большинстве методов сопоставления также могут быть предварительно созданы в таблице.
Задайте политику обновления (необязательно):некоторые форматы данных, такие как Parquet, JSON и Avro, позволяют выполнять простые преобразования времени приема. Для более сложной обработки во время приема используйте политику обновления. Эта политика автоматически выполняет извлечение и преобразования для приема данных в исходной таблице, а затем принимает измененные данные в одну или несколько целевых таблиц.
Прием данных: используйте предпочитаемое средство приема, соединитель или метод для привлечения данных.