Introducción a los conectores de datos
La ingesta de datos es el proceso que se usa para cargar datos de uno o varios orígenes en una base de datos KQL de Inteligencia en tiempo real en Microsoft Fabric. Una vez que se ingieren, los datos están disponibles para su consulta. Inteligencia en tiempo real proporciona varios conectores para la ingesta de datos.
En la tabla siguiente se resumen los conectores de datos, las herramientas y las integraciones disponibles.
Nombre | Funcionalidad | ¿Compatibilidad con streaming? | Tipo | Casos de uso |
---|---|---|---|---|
Apache Flink | Ingesta | ✔️ | Código abierto | Telemetría |
Apache Kafka | Ingesta | ✔️ | Código abierto | Registros, telemetría, serie temporal |
Apache Log4J 2 | Ingesta | ✔️ | Código abierto | Registros |
Spark de Apache | Exportar Ingesta |
Código abierto | Telemetría | |
Apache Spark para Azure Synapse Analytics | Exportar Ingesta |
Entidad propia | Telemetría | |
Azure Data Factory | Exportar Ingesta |
Entidad propia | Orquestación de datos | |
Azure Event Hubs | Ingesta | ✔️ | Entidad propia | Mensajería |
Funciones de Azure | Exportar Ingesta |
Entidad propia | Integraciones de flujos de trabajo | |
Azure Stream Analytics | Ingesta | ✔️ | Entidad propia | Procesamiento de eventos |
Cribl Stream | Ingesta | ✔️ | Entidad propia | Telemetría, registros, métricas, datos de máquina |
Fluent Bit | Ingesta | ✔️ | Código abierto | Registros, métricas, seguimientos |
Logstash | Ingesta | Código abierto | Registros | |
NLog | Ingesta | ✔️ | Código abierto | Telemetría, registros, métricas |
Abrir telemetría | Ingesta | ✔️ | Código abierto | Seguimientos, métricas, registros |
Power Automate | Exportar Ingesta |
Entidad propia | Orquestación de datos | |
Serilog | Ingesta | ✔️ | Código abierto | Registros |
Splunk | Ingesta | Código abierto | Registros | |
Reenviador universal de Splunk | Ingesta | Código abierto | Registros | |
Telegraf | Ingesta | ✔️ | Código abierto | Métricas, registros |
En la tabla siguiente se resumen los conectores disponibles y sus funcionalidades:
Apache Flink
Apache Flink es un marco y un motor de procesamiento distribuido para cálculos con estado mediante flujos de datos enlazados y no enlazados. El conector implementa el receptor de datos para mover datos entre los clústeres de Azure Data Explorer y de Flink. Con Azure Data Explorer y Apache Flink, puede compilar aplicaciones rápidas y escalables orientadas a escenarios controlados por datos. Por ejemplo, aprendizaje automático (ML), extracción, transformación y carga de datos (ETL) y Log Analytics.
- Funcionalidad: Ingesta
- Tipo de ingesta admitido: streaming
- Casos de uso: telemetría
- SDK subyacente: Java
- Repositorio: Microsoft Azure - https://github.com/Azure/flink-connector-kusto/
- Documentación: Obtención de datos de Apache Flink
Apache Kafka
Apache Kafka es una plataforma de streaming distribuida para la creación de canalizaciones de streaming de datos en tiempo real que mueve los datos de forma confiable entre aplicaciones o sistemas. Kafka Connect es una herramienta para realizar streaming de datos de forma escalable y confiable entre Apache Kafka y otros sistemas de datos. El receptor de Kafka actúa como conector de Kafka y no necesita que se use código. El conector tiene la certificación Oro de Confluent y ha pasado por una revisión completa y pruebas de calidad, integridad de características, cumplimiento de estándares y rendimiento.
- Funcionalidad: Ingesta
- Tipo de ingesta admitido: procesamiento por lotes, streaming
- Casos de uso: registros, telemetría, serie temporal
- SDK subyacente: Java
- Repositorio: Microsoft Azure - https://github.com/Azure/kafka-sink-azure-kusto/
- Documentación: Obtención de datos de Apache Kafka
- Blog de la comunidad: Ingesta de Kafka en Azure Data Explorer
Apache Log4J 2
Log4J es un conocido marco de registro para aplicaciones Java mantenido por Apache Foundation. Log4j permite a los desarrolladores controlar qué instrucciones de registro se generan con granularidad arbitraria en función del nombre del registrador, el nivel del registrador y el patrón de mensaje. El receptor Apache Log4J 2 permite transmitir los datos de registro a la base de datos, donde puede analizar y visualizar los registros en tiempo real.
- Funcionalidad: Ingesta
- Tipo de ingesta admitido: procesamiento por lotes, streaming
- Casos de uso: registros
- SDK subyacente: Java
- Repositorio: Microsoft Azure - https://github.com/Azure/azure-kusto-log4j
- Documentación: Obtención de datos con el conector Apache Log4J 2
- Blog de la comunidad: Introducción a Apache Log4J y Azure Data Explorer
Apache Spark
Apache Spark es un motor de análisis unificado para el procesamiento de datos a gran escala. El conector Spark es un proyecto de código abierto que se puede ejecutar en cualquier clúster de Spark. Implementa el origen y el receptor de datos para mover datos a o desde clústeres de Spark. Con el conector Apache Spark, puede compilar aplicaciones rápidas y escalables orientadas a escenarios controlados por datos. Por ejemplo, aprendizaje automático (ML), extracción, transformación y carga de datos (ETL) y Log Analytics. Con el conector, la base de datos se convierte en un almacén de datos válido para las operaciones estándar de origen y receptor de Spark, como las de escritura, lectura y writeStream.
- Funcionalidad: ingesta, exportación
- Tipo de ingesta admitido: procesamiento por lotes, streaming
- Casos de uso: telemetría
- SDK subyacente: Java
- Repositorio: Microsoft Azure - https://github.com/Azure/azure-kusto-spark/
- Documentación: Conector Apache Spark
- Blog de la comunidad: Preprocesamiento de datos para Azure Data Explorer para Azure Data Explorer con Apache Spark
Apache Spark para Azure Synapse Analytics
Apache Spark es una plataforma de procesamiento paralelo que admite el procesamiento en memoria para mejorar el rendimiento de las aplicaciones de análisis de macrodatos. Apache Spark en Azure Synapse Analytics es una de las implementaciones de Microsoft de Apache Spark en la nube. Puede acceder a una base de datos desde Synapse Studio con Apache Spark para Azure Synapse Analytics.
- Funcionalidad: ingesta, exportación
- Tipo de ingesta admitido: procesamiento por lotes
- Casos de uso: telemetría
- SDK subyacente: Java
- Documentación: Conexión a un área de trabajo de Azure Synapse
Azure Data Factory
Azure Data Factory (ADF) es un servicio de integración de datos basado en la nube que le permite integrar diferentes almacenes de datos y realizar actividades en los datos.
- Funcionalidad: ingesta, exportación
- Tipo de ingesta admitido: procesamiento por lotes
- Casos de uso: orquestación de datos
- Documentación: Copia de datos en la base de datos mediante Azure Data Factory
Azure Event Hubs
Azure Event Hubs es una plataforma de streaming de macrodatos y un servicio de ingesta de eventos. Puede configurar la ingesta continua desde una instancia de Event Hubs administrada por el cliente.
- Funcionalidad: Ingesta
- Tipo de ingesta admitido: procesamiento por lotes, streaming
- Documentación: Conexión de datos de Azure Event Hubs
Funciones de Azure
Azure Functions le permite ejecutar código sin servidor en la nube según una programación o en respuesta a un evento. Con los enlaces de entrada y salida para Azure Functions, puede integrar la base de datos en los flujos de trabajo para ingerir datos y ejecutar consultas en la base de datos.
- Funcionalidad: ingesta, exportación
- Tipo de ingesta admitido: procesamiento por lotes
- Casos de uso: integraciones de flujo de trabajo
- Documentación: Integración de Azure Functions utilizando enlaces de entrada y salida (versión preliminar)
- Blog de la comunidad: Enlaces de Azure Data Explorer (Kusto) para Azure Functions
Azure Stream Analytics
Azure Stream Analytics es un motor de procesamiento de eventos complejos y de análisis en tiempo real que está diseñado para analizar y procesar grandes volúmenes de datos de streaming rápido de varios orígenes de manera simultánea.
- Funcionalidad: Ingesta
- Tipo de ingesta admitido: procesamiento por lotes, streaming
- Casos de uso: procesamiento de eventos
- Documentación: Obtención de datos de Azure Stream Analytics
Cribl Stream
Cribl Stream es un motor de procesamiento que recopila, procesa y transmite de forma segura los datos de eventos de la máquina de cualquier origen. Permite analizar y procesar los datos de cualquier destino para el análisis.
- Funcionalidad: Ingesta
- Tipo de ingesta admitido: procesamiento por lotes, streaming
- Casos de uso: procesamiento de datos de máquinas, incluidos registros, métricas y datos de instrumentación
- Documentación: Obtención de datos de Cribl Stream
Fluent Bit
Fluent Bit es un agente de código abierto que recopila registros, métricas y seguimientos de varios orígenes. Permite filtrar, modificar y agregar datos de eventos antes de enviarlos al almacenamiento.
- Funcionalidad: Ingesta
- Tipo de ingesta admitido: procesamiento por lotes
- Casos de uso: registros, métricas, seguimientos
- Repositorio: extensión de salida de fluent-bit de Kusto
- Documentación: Obtención de datos con Fluent Bit
Logstash
El complemento Logstash permite procesar eventos de Logstash en una base de datos para su posterior análisis.
- Funcionalidad: Ingesta
- Tipo de ingesta admitido: procesamiento por lotes
- Casos de uso: registros
- SDK subyacente: Java
- Repositorio: Microsoft Azure - https://github.com/Azure/logstash-output-kusto/
- Documentación: Obtención de datos de Logstash
- Blog de la comunidad: Migración de Elasticsearch a Azure Data Explorer
NLog
NLog es una plataforma de registro flexible y gratuita para varias plataformas de .NET, incluido .NET Standard. NLog permite escribir en varios destinos, como una base de datos, un archivo o una consola. Con NLog, puede cambiar la configuración de registro sobre la marcha. El receptor de NLog es un destino de NLog que le permite enviar los mensajes de registro a la base de datos. El complemento proporciona una manera eficaz de recibir los registros en el clúster.
- Funcionalidad: Ingesta
- Tipo de ingesta admitido: procesamiento por lotes, streaming
- Casos de uso: telemetría, registros, métricas
- SDK subyacente: .NET
- Repositorio: Microsoft Azure - https://github.com/Azure/azure-kusto-nlog-sink
- Documentación: Obtención de datos con el receptor de NLog
- Blog de la comunidad: Introducción al receptor de NLog y Azure Data Explorer
OpenTelemetry
El conector OpenTelemetry admite la ingesta de datos de muchos receptores en la base de datos. Funciona como un puente para ingerir datos generados por OpenTelemetry en la base de datos mediante la personalización del formato de los datos exportados según las necesidades.
- Funcionalidad: Ingesta
- Tipo de ingesta admitido: procesamiento por lotes, streaming
- Casos de uso: seguimientos, métricas, registros
- SDK subyacente: Go
- Repositorio: OpenTelemetry - https://github.com/open-telemetry/opentelemetry-collector-contrib/tree/main/exporter/azuredataexplorerexporter
- Documentación: Obtención de datos de OpenTelemetry
- Blog de la comunidad: Introducción a OpenTelemetry y Azure Data Explorer
Power Automate
Power Automate es un servicio de orquestación que se usa para automatizar procesos empresariales. El conector Power Automate (anteriormente Microsoft Flow) le permite organizar y programar flujos, enviar notificaciones y alertas, como parte de una tarea programada o desencadenada.
- Funcionalidad: ingesta, exportación
- Tipo de ingesta admitido: procesamiento por lotes
- Casos de uso: orquestación de datos
- Documentación: Conector Microsoft Power Automate
Serilog
Serilog es un conocido marco de registro para aplicaciones .NET. Serilog permite a los desarrolladores controlar qué instrucciones de registro se generan con granularidad arbitraria en función del nombre del registrador, el nivel del registrador y el patrón de mensaje. El receptor Serilog, también denominado anexador, permite transmitir los datos de registro a la base de datos, donde puede analizar y visualizar los registros en tiempo real.
- Funcionalidad: Ingesta
- Tipo de ingesta admitido: procesamiento por lotes, streaming
- Casos de uso: registros
- SDK subyacente: .NET
- Repositorio: Microsoft Azure - https://github.com/Azure/serilog-sinks-azuredataexplorer
- Documentación: Obtención de datos de Serilog
- Blog de la comunidad: Cómo empezar con el receptor Serilog y Azure Data Explorer
Splunk
Splunk Enterprise es una plataforma de software que permite ingerir datos de muchos orígenes simultáneamente. El complemento Azure Data Explorer envía datos de Splunk a una tabla del clúster.
- Funcionalidad: Ingesta
- Tipo de ingesta admitido: procesamiento por lotes
- Casos de uso: registros
- SDK subyacente: Python
- Repositorio: Microsoft Azure - https://github.com/Azure/azure-kusto-splunk/tree/main/splunk-adx-alert-addon
- Documentación: Obtención de datos de Splunk
- Splunk Base: Complemento de Microsoft Fabric para Splunk
- Blog de la comunidad: Introducción al complemento Microsoft Azure Data Explorer para Splunk
Reenviador universal de Splunk
- Funcionalidad: Ingesta
- Tipo de ingesta admitido: procesamiento por lotes
- Casos de uso: registros
- Repositorio: Microsoft Azure - https://github.com/Azure/azure-kusto-splunk
- Documentación: Obtención de datos del reenviador universal de Splunk a Azure Data Explorer
- Blog de la comunidad: Obtención de datos mediante el reenviador universal de Splunk en Azure Data Explorer
Telegraf
Telegraf es un agente con huella de memoria mínima, ligero y de código abierto para recopilar, procesar y escribir datos de telemetría, incluidos registros, métricas y datos de IoT. Telegraf admite cientos de complementos de entrada y salida. Es ampliamente utilizado y cuenta con el soporte técnico de la comunidad de código abierto. El complemento de salida actúa como conector de Telegraf y admite la ingesta de datos de muchos tipos de complementos de entrada en la base de datos.
- Funcionalidad: Ingesta
- Tipo de ingesta admitido: procesamiento por lotes, streaming
- Casos de uso: telemetría, registros, métricas
- SDK subyacente: Go
- Repositorio: InfluxData - https://github.com/influxdata/telegraf/tree/master/plugins/outputs/azure_data_explorer
- Documentación: Obtención de datos de Telegraf
- Blog de la comunidad: El nuevo complemento de salida de Azure Data Explorer para Telegraf permite la supervisión de SQL a gran escala