Sélectionner un outil d’ingestion de données

Article
06/01/2023

Une fois que vous avez sélectionné une plateforme cible pour vos données historiques, l’étape suivante consiste à sélectionner un outil pour transférer vos données.

Cet article décrit un ensemble d’outils différents utilisés pour transférer vos données historiques vers la plateforme cible sélectionnée. Ce tableau répertorie les outils disponibles pour chaque plateforme cible et les outils généraux pour vous aider dans le processus d’ingestion.

Journaux de base/Archive Azure Monitor	Explorateur de données Azure	Stockage Blob Azure	Outils généraux
• Outil d’ingestion de journal personnalisé Azure Monitor • API directe	• LightIngest • Logstash	• Azure Data Factory ou Azure Synapse • AzCopy	• Azure Data Box • Accélérateur de migration de données SIEM

Journaux d’activité basiques/Archive Azure Monitor

Avant d’ingérer des données dans les journaux d’activité basiques ou Archive Azure Monitor, pour des prix d’ingestion inférieurs, assurez-vous que la table dans laquelle vous écrivez est configurée en tant que journaux d’activité basiques. Passez en revue l’outil d’ingestion de journal personnalisé Azure Monitor et la méthode d’API directe pour les journaux d’activité basiques Azure Monitor.

Outil d’ingestion de journal personnalisé Azure Monitor

L’outil d’ingestion de journal personnalisé est un script PowerShell qui envoie des données personnalisées à un espace de travail Journaux Azure Monitor. Vous pouvez faire pointer le script vers le dossier où résident tous vos fichiers journaux, et le script envoie les fichiers à ce dossier. Le script accepte un format CSV ou JSON pour les fichiers journaux.

API directe

Avec cette option, vous ingérez vos journaux personnalisés dans les journaux Azure Monitor. Vous ingérez les journaux avec un script PowerShell qui utilise une API REST. Vous pouvez également utiliser n’importe quel autre langage de programmation pour effectuer l’ingestion, et vous pouvez utiliser d’autres services Azure pour extraire la couche de calcul, comme Azure Functions ou Azure Logic Apps.

Explorateur de données Azure

Vous pouvez ingérer des données dans Azure Data Explorer (ADX) de plusieurs façons.

Les méthodes d’ingestion qu’ADX accepte sont basées sur différents composants :

SDK pour différents langages, tels que .NET, Go, Python, Java, NodeJS et API.
Pipelines managés, tels que Event Hubs Event Grid ou Stockage Blob et Azure Data Factory.
Connecteurs ou plug-ins, tels que Logstash, Kafka, Power Automate et Apache Spark.

Passez en revue LightIngest et Logstash, deux méthodes qui sont mieux adaptées au cas d’usage de migration de données.

LightIngest

ADX a développé l’utilitaire LightIngest spécifiquement pour le cas d’usage de la migration de données historique. Vous pouvez utiliser LightIngest pour copier des données à partir d’un système de fichiers local ou de Stockage Blob Azure vers ADX.

Voici quelques principaux avantages et fonctionnalités de LightIngest :

LightIngest est particulièrement utile quand vous souhaitez ingérer une grande quantité de données, car la durée d’ingestion n’est soumise à aucune contrainte de temps.
LightIngest permet également d’interroger les enregistrements en fonction de l’heure à laquelle ils ont été créés, et non de l’heure à laquelle ils ont été ingérés.
Vous n’avez pas besoin de gérer le dimensionnement complexe pour LightIngest, car l’utilitaire n’effectue pas la copie réelle. LightIngest informe ADX des objets blob qui doivent être copiés, et ADX copie les données.

Si vous choisissez LightIngest, passez en revue ces conseils et bonnes pratiques.

Pour accélérer votre migration et réduire les coûts, augmentez la taille de votre cluster ADX afin de créer plus de nœuds disponibles pour l’ingestion. Réduisez la taille une fois la migration terminée.
Pour des requêtes plus efficaces après avoir ingéré les données dans ADX, assurez-vous que les données copiées utilisent l’horodatage pour les événements d’origine. Les données ne doivent pas utiliser l’horodatage à partir duquel les données sont copiées dans ADX. Vous fournissez l’horodatage à LightIngest comme chemin d’accès du nom de fichier dans la propriété CreationTime.
Si vos noms de chemin d’accès ou de fichier n’incluent pas d’horodatage, vous pouvez toujours demander à ADX d’organiser les données à l’aide d’une stratégie de partitionnement.

Logstash

Logstash est un pipeline open source de traitement de données côté serveur qui ingère simultanément des données provenant de nombreuses sources, les transforme, puis les envoie à votre « remise » préférée. Découvrez comment ingérer des données Logstash dans Azure Data Explorer. Logstash s’exécute sur des machines Windows, Linux et MacOS.

Pour optimiser les performances, configurez la taille du niveau Logstash en fonction des événements par seconde. Nous vous recommandons d’utiliser LightIngest dans la mesure du possible, car LightIngest s’appuie sur les calculs du cluster ADX pour effectuer la copie.

Stockage Blob Azure

Vous pouvez ingérer des données pour Stockage Blob Azure de plusieurs façons.

Passez en revue les méthodes Azure Data Factory (ADF) et Azure Synapse, qui sont mieux adaptées au cas d’usage de migration des données.

Azure Data Factory ou Azure Synapse

Pour utiliser l’activité Copy dans les pipelines Azure Data Factory (ADF) ou Synapse :

Créez et configurer un runtime d’intégration auto-hébergé. Ce composant est chargé de copier les données à partir de votre hôte local.
Créez des services liés pour le magasin de données source (système de fichier) et le magasin de données récepteur stockage blob.
Pour copier les données, utilisez l’outil Copier des données. Vous pouvez également utiliser une méthode telle que PowerShell, le Portail Azure, un SDK .NET, et ainsi de suite.

AzCopy

AzCopy est un utilitaire de ligne de commande simple qui copie des fichiers vers ou depuis des comptes de stockage. AzCopy est disponible pour Windows, Linux et macOS. Découvrez comment copier des données locales dans Stockage Blob Azure avec AzCopy.

Vous pouvez également utiliser ces options pour copier les données :

Découvrez comment optimiser les performances d’AzCopy.
Découvrez comment configurer azCopy.
Découvrez comment utiliser la commande de copie.

Azure Data Box

Dans un scénario où le SIEM source n’a pas de bonne connectivité à Azure, l’ingestion des données à l’aide des outils examinés dans cette section peut être lente ou même impossible. Pour résoudre ce scénario, vous pouvez utiliser Azure Data Box pour copier les données localement à partir du centre de données du client dans une appliance, puis expédier cette appliance à un centre de données Azure. Bien qu’Azure Data Box ne remplace pas AzCopy ou LightIngest, vous pouvez utiliser cet outil pour accélérer le transfert de données entre le centre de données client et Azure.

Azure Data Box propose trois références SKU différentes, en fonction de la quantité de données à migrer :

Une fois la migration terminée, les données sont disponibles dans un compte de stockage sous l’un de vos abonnements Azure. Vous pouvez ensuite utiliser AzCopy, LightIngest ou ADF pour ingérer des données à partir du compte de stockage.

Accélérateur de migration de données SIEM

En plus de sélectionner un outil d’ingestion, votre équipe doit investir du temps dans la configuration de l’environnement de base. Pour faciliter ce processus, vous pouvez utiliser l’accélérateur de migration de données SIEM, qui automatise les tâches suivantes :

Déploie une machine virtuelle Windows qui sera utilisée pour déplacer les journaux de la source vers la plateforme cible
Télécharge et extrait les outils suivants dans le bureau de machine virtuelle :
- LightIngest : utilisé pour migrer des données vers ADX
- Outil d’ingestion de journal personnalisé Azure Monitor : utilisé pour migrer des données vers Log Analytics
- AzCopy : utilisé pour migrer les données vers Stockage Blob Azure
Déploie la plateforme cible qui hébergera vos journaux d’activité historiques :
- Compte Stockage Azure (Stockage Blob Azure).
- Cluster et base de données Azure Data Explorer
- Espace de travail Journaux Azure Monitor (Journaux d’activité basiques ; activé avec Microsoft Sentinel)

Pour utiliser l’accélérateur de migration de données SIEM :

Dans la page Accélérateur de migration de données SIEM, cliquez sur Déployer sur Azure en bas de la page, puis authentifiez-vous.
Sélectionnez Général, sélectionnez votre groupe de ressources et votre emplacement, puis sélectionnez Suivant.
Sélectionnez Machine virtuelle de migration, puis procédez comme suit :
- Tapez le nom, le nom d’utilisateur et le mot de passe de la machine virtuelle.
- Sélectionnez un réseau virtuel existant ou créez un réseau virtuel pour la connexion de la machine virtuelle.
- Sélectionnez la taille de la machine virtuelle.
Sélectionnez Plateforme cible et effectuez l’une des opérations suivantes :
- Ignorez cette étape.
- Indiquez le nom du cluster et de la base de données ADX, la référence SKU et le nombre de nœuds.
- Pour les comptes Stockage Blob Azure, sélectionnez un compte existant. Si vous n’avez pas de compte, fournissez un nouveau nom de compte, un nouveau type et une redondance.
- Pour les journaux Azure Monitor, tapez le nom du nouvel espace de travail.

Étapes suivantes

Dans cet article, vous avez appris à sélectionner un outil pour ingérer vos données dans la plateforme cible.

Ingérer vos données

Partager via