Collecter les journaux et les métriques de vos applications Apache Spark avec un compte de stockage Azure

Article
21/06/2023

L’extension d’émission de diagnostic Synapse Apache Spark est une bibliothèque qui permet à une application Apache Spark d’envoyer des journaux, des journaux des événements et des métriques vers une ou plusieurs destinations, y compris Azure Log Analytics, le stockage Azure et Azure Event Hubs.

Dans ce tutoriel, vous apprenez à utiliser l’extension d’émission de diagnostic Synapse Apache Spark pour envoyer à votre compte de stockage les journaux, journaux d’événements et métriques de vos applications Apache Spark.

Collecter les journaux et les métriques pour les envoyer vers un compte de stockage

Étape 1 : Créez un compte de stockage.

Pour collecter les journaux de diagnostic et les métriques afin de les envoyer vers un compte de stockage, vous pouvez utiliser des comptes de stockage Azure existants. Si vous n’en avez pas, vous pouvez créer un compte de stockage Blob Azure ou créer un compte de stockage à utiliser avec Azure Data Lake Storage Gen2.

Étape 2 : Créer un fichier de configuration pour Apache Spark

Créez un fichier diagnostic-emitter-azure-storage-conf.txt puis copiez-y le contenu suivant. Vous pouvez également télécharger un exemple de modèle pour la configuration du pool Apache Spark.

spark.synapse.diagnostic.emitters MyDestination1
spark.synapse.diagnostic.emitter.MyDestination1.type AzureStorage
spark.synapse.diagnostic.emitter.MyDestination1.categories Log,EventLog,Metrics
spark.synapse.diagnostic.emitter.MyDestination1.uri https://<my-blob-storage>.blob.core.windows.net/<container-name>/<folder-name>
spark.synapse.diagnostic.emitter.MyDestination1.auth AccessKey
spark.synapse.diagnostic.emitter.MyDestination1.secret <storage-access-key>

Dans le fichier de configuration, configurez les paramètres suivants : <my-blob-storage>, <container-name>, <folder-name>, <storage-access-key>. Pour une description des paramètres, consultez Configurations du Stockage Azure

Étape 3 : charger le fichier de configuration Apache Spark dans Synapse Studio et l’utiliser dans le pool Spark

Ouvrez la page des configurations Apache Spark (Gérer –> Configurations Apache Spark).
Cliquez sur le bouton Importer pour charger le fichier de configuration Apache Spark dans Synapse Studio.
Accédez à votre pool Apache Spark dans Synapse Studio (Gérer –> Pools Apache Spark).
Cliquez sur le bouton « ... » situé à droite de votre pool Apache Spark, puis sélectionnez Configuration Apache Spark.
Vous pouvez sélectionner le fichier config que vous venez de charger dans le menu déroulant.
Cliquez sur Appliquer après avoir sélectionné le fichier config.

Étape 4 : Afficher les fichiers journaux dans le compte de stockage Azure

Une fois que vous avez envoyé un travail au pool Apache Spark configuré, les fichiers de journaux et de métriques doivent être visibles dans le compte de stockage de destination. Les journaux seront placés dans les chemins correspondants de chaque application par <workspaceName>.<sparkPoolName>.<livySessionId>. Tous les fichiers journaux ont un format de lignes JSON (également appelé JSON délimité par des sauts de ligne ou ndjson), ce qui est pratique pour le traitement des données.

Configurations disponibles

Configuration	Description
`spark.synapse.diagnostic.emitters`	Obligatoire. Noms des destinations des émetteurs de diagnostic, séparés par des virgules. Par exemple, `MyDest1,MyDest2`
`spark.synapse.diagnostic.emitter.<destination>.type`	Obligatoire. Type de destination intégrée. Pour activer la destination Azure Storage, vous devez inclure `AzureStorage` dans ce champ.
`spark.synapse.diagnostic.emitter.<destination>.categories`	facultatif. Catégories de journaux sélectionnées séparées par des virgules. Les valeurs disponibles sont les suivantes : `DriverLog`, `ExecutorLog`, `EventLog`, `Metrics`. Si aucune valeur n’est définie, la valeur par défaut sera all (toutes les catégories).
`spark.synapse.diagnostic.emitter.<destination>.auth`	Obligatoire. `AccessKey` pour utiliser l’autorisation Clé d’accès du compte de stockage. `SAS` pour l’autorisation signatures d’accès partagé.
`spark.synapse.diagnostic.emitter.<destination>.uri`	Obligatoire. URI du dossier du conteneur d’objets blob de destination. Doit correspondre au modèle `https://<my-blob-storage>.blob.core.windows.net/<container-name>/<folder-name>`.
`spark.synapse.diagnostic.emitter.<destination>.secret`	facultatif. Contenu du secret (clé d’accès ou SAS).
`spark.synapse.diagnostic.emitter.<destination>.secret.keyVault`	Requis si `.secret` n'est pas spécifié. Nom du coffre de clés Azure dans lequel est stocké le secret (clé d’accès ou SAS).
`spark.synapse.diagnostic.emitter.<destination>.secret.keyVault.secretName`	Obligatoire si `.secret.keyVault` est spécifié. Nom du coffre de clés Azure dans lequel le secret (clé d’accès ou SAS) est stocké.
`spark.synapse.diagnostic.emitter.<destination>.secret.keyVault.linkedService`	Optionnel. Nom du service lié au coffre de clés Azure. Quand il est activé dans le pipeline Synapse, ceci est nécessaire pour obtenir le secret auprès d’AKV. (Vérifiez que MSI dispose de l’autorisation de lecture sur le coffre de clés Azure).
`spark.synapse.diagnostic.emitter.<destination>.filter.eventName.match`	facultatif. Noms des événements Spark séparés par des virgules. Vous pouvez spécifier les événements à collecter. Par exemple : `SparkListenerApplicationStart,SparkListenerApplicationEnd`
`spark.synapse.diagnostic.emitter.<destination>.filter.loggerName.match`	facultatif. Noms des enregistreurs d’événements log4j séparés par des virgules. Vous pouvez spécifier les journaux à collecter. Par exemple : `org.apache.spark.SparkContext,org.example.Logger`
`spark.synapse.diagnostic.emitter.<destination>.filter.metricName.match`	facultatif. Suffixes des noms de métriques Spark séparés par des virgules. Vous pouvez spécifier les métriques à collecter. Par exemple : `jvm.heap.used`

Exemple de données de journal

Voici un exemple d’enregistrement de journal au format JSON :

JSON

{
    "timestamp": "2021-01-02T12:34:56.789Z",
    "category": "Log|EventLog|Metrics",
    "workspaceName": "<my-workspace-name>",
    "sparkPool": "<spark-pool-name>",
    "livyId": "<livy-session-id>",
    "applicationId": "<application-id>",
    "applicationName": "<application-name>",
    "executorId": "<driver-or-executor-id>",
    "properties": {
        // The message properties of logs, events and metrics.
        "timestamp": "2021-01-02T12:34:56.789Z",
        "message": "Registering signal handler for TERM",
        "logger_name": "org.apache.spark.util.SignalUtils",
        "level": "INFO",
        "thread_name": "main"
        // ...
    }
}

Espace de travail Synapse où est activée la protection contre l’exfiltration de données

Les espaces de travail Azure Synapse Analytics prennent en charge l’activation de la protection contre l’exfiltration de données pour les espaces de travail. Avec la protection contre l’exfiltration de données, les journaux et les métriques ne peuvent pas être envoyés directement aux points de terminaison de destination. Vous pouvez créer des points de terminaison privés managés pour différents points de terminaison de destination ou créer des règles de pare-feu IP dans ce scénario.

Accédez à Synapse Studio > Gérer > Points de terminaison privés managés, cliquez sur le bouton Nouveau, sélectionnez Stockage Blob Azure ou Azure Data Lake Storage Gen2, puis Continuer.
Notes

Nous prenons en charge Stockage Blob Azure et Azure Data Lake Storage Gen2. Mais nous n’avons pas pu analyser le format abfss://. Les points de terminaison Azure Data Lake Storage Gen2 doivent être mis en forme en tant qu’URL d’objet blob :
```
https://<my-blob-storage>.blob.core.windows.net/<container-name>/<folder-name> 
```
Choisissez votre compte de stockage Azure dans Nom du compte de stockage, puis cliquez sur le bouton Créer.
Attendez quelques minutes que le provisionnement du point de terminaison privé soit terminé.
Accédez à votre compte de stockage dans le portail Azure et, dans la page Réseau>Connexions de point de terminaison privé, sélectionnez la connexion provisionnée, puis Approuver.

Ressources supplémentaires

Documentation

Collecter les journaux et les métriques de vos applications Apache Spark avec Azure Event Hubs - Azure Synapse Analytics

Dans ce tutoriel, vous allez voir comment utiliser l’extension d’émission de diagnostic Synapse Apache Spark qui permet d’envoyer vers Azure Event Hubs des journaux, des journaux des événements et des métriques concernant les applications Apache Spark.
Monitorer des applications Apache Spark avec Azure Log Analytics - Azure Synapse Analytics

Découvrez comment activer le connecteur Synapse Studio pour collecter et envoyer les métriques et les journaux de l’application Apache Spark à votre espace de travail Log Analytics.
Comment surveiller les pools Apache Spark dans Synapse Studio - Azure Synapse Analytics

Découvrez comment surveiller vos pools Apache Spark à l’aide de Synapse Studio.
Surveiller des applications Apache Spark à l’aide de Synapse Studio - Azure Synapse Analytics

Utilisez Synapse Studio pour surveiller vos applications Apache Spark.
Journaux de diagnostic des pools Apache Spark Azure Synapse Analytics - Azure Synapse Analytics

Répertorie les journaux de diagnostic Apache Spark collectés lors de la résolution des problèmes par Support Microsoft.
Collecter les métriques des applications Apache Spark avec des API - Azure Synapse Analytics

Tutoriel – Découvrez comment intégrer votre serveur Prometheus local à l’espace de travail Azure Synapse pour obtenir les métriques de l’application Azure Spark en quasi-temps réel grâce au connecteur Synapse Prometheus.
Apache Spark Advisor dans Azure Synapse Analytics - Azure Synapse Analytics

Spark Advisor est un système permettant d’analyser automatiquement les commandes/requêtes et d’afficher les conseils appropriés lorsqu’un client exécute du code ou une requête.
Limites de concurrence pour Spark dans Azure Synapse Analytics

Affichez les limites de concurrence et de limitation allouées aux différents niveaux d’étendue et limites de débit d’API pour les pools et travaux Spark dans Azure Synapse Analytics.

Entrainement

Module

Intégrer des pools SQL et Apache Spark dans Azure Synapse Analytics - Training

Intégrer des pools SQL et Apache Spark dans Azure Synapse Analytics

Certification

Microsoft Certified : Azure Data Engineer Associate - Certifications

Faites la démonstration d’une compréhension des tâches d’engineering données courantes pour implémenter et gérer des charges de travail d’engineering données sur Microsoft Azure en utilisant un certain nombre de services Azure.

Événements

FabCon Vegas

31 mars, 23 h - 2 avr., 23 h

Le plus grand événement d’apprentissage Fabric, Power BI et SQL. 31 mars au 2 avril. Utilisez le code FABINSIDER pour économiser 400 $.

Inscrivez-vous aujourd’hui

Partager via