Selección de una herramienta de ingesta de datos

Artigo
06/01/2023

Después de seleccionar una plataforma de destino para los datos históricos, el siguiente paso consiste en seleccionar una herramienta para transferir los datos.

En este artículo se describe un conjunto de diferentes herramientas que se usan para transferir los datos históricos a la plataforma de destino seleccionada. En esta tabla se enumeran las herramientas disponibles para cada plataforma de destino y las herramientas generales que le ayudarán con el proceso de ingesta.

Registros o archivos básicos de Azure Monitor	Explorador de datos de Azure	Azure Blob Storage	Herramientas generales
• Herramienta de ingesta de registros personalizada de Azure Monitor • Direct API	• LightIngest • Logstash	Azure Data Factory Azure Synapse Analytics • AzCopy	• Azure Data Box • Acelerador de migración de datos SIEM

Registros o archivos básicos de Azure Monitor

Antes de ingerir datos en registros básicos o archivo de Azure Monitor, para obtener precios de ingesta inferiores, asegúrese de que la tabla en la que está escribiendo está configurada como registros básicos. Revise la herramienta de ingesta de registros personalizada de Azure Monitor y el método Direct API para los registros básicos de Azure Monitor.

Herramienta de ingesta de registros personalizada de Azure Monitor

La herramienta de ingesta de registros personalizada es un script de PowerShell que envía datos personalizados a un área de trabajo de registros de Azure Monitor. Puede apuntar el script a la carpeta donde residen todos los archivos de registro y el script inserta los archivos en esa carpeta. El script acepta un formato CSV o JSON para los archivos de registro.

Direct API

Con esta opción, ingerirá los registros personalizados en los registros de Azure Monitor. Los registros se ingieren con un script de PowerShell que usa una API REST. Como alternativa, puede usar cualquier otro lenguaje de programación para realizar la ingesta y puede usar otros servicios de Azure para abstraer la capa de proceso, como Azure Functions o Azure Logic Apps.

Explorador de datos de Azure

Puede ingerir datos en Azure Data Explorer (ADX) de varias maneras.

Los métodos de ingesta que ADX acepta se basan en distintos componentes:

SDK para distintos lenguajes, como .NET, Go, Python, Java, NodeJS y API.
Canalizaciones administradas, como Event Grid o Event Hubs de blobs de almacenamiento y Azure Data Factory.
Conectores o complementos, como Logstash, Kafka, Power Automate y Apache Spark.

Revise LightIngest y Logstash, dos métodos que se adapten mejor al caso de uso de la migración de datos.

LightIngest

ADX ha desarrollado la utilidad LightIngest específicamente para el caso de uso de migración de datos históricos. Puede usar LightIngest para copiar datos de un sistema de archivos local o Azure Blob Storage a ADX.

Estas son algunas de las principales ventajas y funcionalidades de LightIngest:

Dado que no hay ninguna restricción de tiempo en la duración de la ingesta, LightIngest resulta más útil cuando desea ingerir grandes cantidades de datos.
LightIngest resulta útil si desea consultar registros según la hora a la que se crearon y no según la hora a la que se ingirieron.
No es necesario tratar el ajuste de tamaño complejo para LightIngest, ya que la utilidad no realiza la copia real. LightIngest informa a ADX sobre los blobs que deben copiarse y ADX copia los datos.

Si elige LightIngest, revise estas sugerencias y procedimientos recomendados.

Para acelerar la migración y reducir los costos, aumente el tamaño del clúster de ADX para crear más nodos disponibles para la ingesta. Reduzca el tamaño una vez que haya terminado la migración.
Para consultas más eficaces después de ingerir los datos en ADX, asegúrese de que los datos copiados usan la marca de tiempo para los eventos originales. Los datos no deben usar la marca de tiempo de cuando los datos se copian en ADX. Proporcione la marca de tiempo a LightIngest como ruta de acceso del nombre de archivo como parte de la propiedad CreationTime.
Si la ruta de acceso o los nombres de archivo no incluyen una marca de tiempo, todavía puede indicar a ADX que organice los datos mediante una directiva de creación de particiones.

Logstash

Logstash es una canalización de procesamiento de datos del servidor de código abierto que ingiere datos de varios orígenes al mismo tiempo, los transforma y, después, los envía a su "lugar de almacenamiento provisional" preferido. Aprenda a ingerir datos de Logstash en Azure Data Explorer. Logstash se ejecuta en máquinas Windows, Linux y MacOS.

Para optimizar el rendimiento, configure el tamaño del nivel de Logstash según los eventos por segundo. Se recomienda usar LightIngest siempre que sea posible, ya que LightIngest se basa en la informática de clústeres de ADX para realizar la copia.

Azure Blob Storage

Puede ingerir datos en Azure Blob Storage de varias maneras.

Revise los métodos Azure Data Factory (ADF) y Azure Synapse, que están mejor adaptados al caso de uso de la migración de datos.

Azure Data Factory o Azure Synapse

Para usar el actividad de copia en canalizaciones de Azure Data Factory (ADF) o Synapse:

Cree y configure un entorno de ejecución de integración autohospedado. Este componente es responsable de copiar los datos del host local.
Cree servicios vinculados para el almacén de datos de origen (sistema de archivos y el almacén de datos receptor almacenamiento de blobs.
Para copiar los datos, use la herramienta Copiar datos. Como alternativa, puede usar métodos como PowerShell, Azure Portal, un SDK de .NET, etc.

AzCopy

AzCopy es una utilidad de línea de comandos sencilla que copia archivos en cuentas de almacenamiento o desde ellas. PowerShell está disponible para Windows, Linux y macOS. Obtenga información sobre cómo copiar datos locales en Azure Blob Storage con AzCopy.

También puede usar estas opciones para copiar los datos:

Obtenga información sobre cómo optimizar el rendimiento de AzCopy.
Obtenga información sobre cómo configurar AzCopy.
Obtenga información sobre cómo usar el comando copy.

Azure Data Box

En un escenario en el que el SIEM de origen no tiene buena conectividad con Azure, la ingesta de datos mediante las herramientas revisadas en esta sección podría ser lenta o incluso imposible. Para abordar este escenario, puede usar Azure Data Box para copiar los datos localmente desde el centro de datos del cliente en un dispositivo y, a continuación, enviar ese dispositivo a un centro de datos de Azure. Aunque Azure Data Box no es un reemplazo de AzCopy o LightIngest, puede usar esta herramienta para acelerar la transferencia de datos entre el centro de datos del cliente y Azure.

Azure Data Box ofrece tres SKU diferentes, en función de la cantidad de datos que se van a migrar:

Después de completar la migración, los datos están disponibles en una cuenta de almacenamiento en una de las suscripciones de Azure. A continuación, puede usar AzCopy, LightIngest o ADF para ingerir datos de la cuenta de almacenamiento.

Acelerador de migración de datos SIEM

Además de seleccionar una herramienta de ingesta, el equipo debe invertir tiempo en la configuración del entorno de base. Para facilitar este proceso, puede usar el acelerador de migración de datos SIEM, que automatiza las siguientes tareas:

Implementa una máquina virtual de Windows que se usará para mover los registros de la plataforma de origen a la plataforma de destino.
Descarga y extrae las siguientes herramientas en el escritorio de máquina virtual:
- LightIngest: se usa para migrar datos a ADX
- Herramienta de ingesta de registros personalizada de Azure Monitor: se usa para migrar datos a Log Analytics
- AzCopy: se usa para copiar datos en Azure Blob Storage
Implementa la plataforma de destino que hospedará los registros históricos:
- Cuenta de Azure Storage (Azure Blob Storage)
- Un clúster y una base de datos de Azure Data Explorer.
- Área de trabajo de registros de Azure Monitor (registros básicos; habilitada con Microsoft Sentinel)

Para usar el acelerador de migración de datos SIEM:

En la página del acelerador de migración de datos SIEM, haga clic en Implementar en Azure en la parte inferior de la página y autentíquese.
Seleccione Aspectos básicos, seleccione el grupo de recursos y la ubicación y, a continuación, seleccione Siguiente.
Seleccione VM de migración y haga lo siguiente:
- Escriba el nombre de máquina virtual, el nombre de usuario y la contraseña.
- Seleccione una red virtual existente o cree una nueva para la conexión de máquina virtual.
- Seleccione el tamaño de la máquina virtual.
Seleccione Plataforma de destino y realice una de las acciones siguientes:
- Omita este paso.
- Proporcione el nombre del clúster de ADX y la base de datos, la SKU y el número de nodos.
- En las cuentas de Azure Blob Storage, seleccione una cuenta existente. Si no tiene una cuenta, proporcione un nombre de cuenta, un tipo y una redundancia nuevos.
- En Registros de Azure Monitor, escriba el nombre del área de trabajo nueva.

Pasos siguientes

En este artículo, ha aprendido a seleccionar una herramienta para ingerir los datos en la plataforma de destino.

Ingesta de los datos

Compartir por