Événements
31 mars, 23 h - 2 avr., 23 h
Le plus grand événement d’apprentissage Fabric, Power BI et SQL. 31 mars au 2 avril. Utilisez le code FABINSIDER pour économiser 400 $.
Inscrivez-vous aujourd’huiCe navigateur n’est plus pris en charge.
Effectuez une mise à niveau vers Microsoft Edge pour tirer parti des dernières fonctionnalités, des mises à jour de sécurité et du support technique.
L’extension d’émission de diagnostic Synapse Apache Spark est une bibliothèque qui permet à une application Apache Spark d’envoyer des journaux, des journaux des événements et des métriques vers une ou plusieurs destinations, y compris Azure Log Analytics, le stockage Azure et Azure Event Hubs.
Dans ce tutoriel, vous apprenez à utiliser l’extension d’émission de diagnostic Synapse Apache Spark pour envoyer à votre compte de stockage les journaux, journaux d’événements et métriques de vos applications Apache Spark.
Pour collecter les journaux de diagnostic et les métriques afin de les envoyer vers un compte de stockage, vous pouvez utiliser des comptes de stockage Azure existants. Si vous n’en avez pas, vous pouvez créer un compte de stockage Blob Azure ou créer un compte de stockage à utiliser avec Azure Data Lake Storage Gen2.
Créez un fichier diagnostic-emitter-azure-storage-conf.txt
puis copiez-y le contenu suivant. Vous pouvez également télécharger un exemple de modèle pour la configuration du pool Apache Spark.
spark.synapse.diagnostic.emitters MyDestination1
spark.synapse.diagnostic.emitter.MyDestination1.type AzureStorage
spark.synapse.diagnostic.emitter.MyDestination1.categories Log,EventLog,Metrics
spark.synapse.diagnostic.emitter.MyDestination1.uri https://<my-blob-storage>.blob.core.windows.net/<container-name>/<folder-name>
spark.synapse.diagnostic.emitter.MyDestination1.auth AccessKey
spark.synapse.diagnostic.emitter.MyDestination1.secret <storage-access-key>
Dans le fichier de configuration, configurez les paramètres suivants : <my-blob-storage>
, <container-name>
, <folder-name>
, <storage-access-key>
.
Pour une description des paramètres, consultez Configurations du Stockage Azure
Une fois que vous avez envoyé un travail au pool Apache Spark configuré, les fichiers de journaux et de métriques doivent être visibles dans le compte de stockage de destination.
Les journaux seront placés dans les chemins correspondants de chaque application par <workspaceName>.<sparkPoolName>.<livySessionId>
.
Tous les fichiers journaux ont un format de lignes JSON (également appelé JSON délimité par des sauts de ligne ou ndjson), ce qui est pratique pour le traitement des données.
Configuration | Description |
---|---|
spark.synapse.diagnostic.emitters |
Obligatoire. Noms des destinations des émetteurs de diagnostic, séparés par des virgules. Par exemple, MyDest1,MyDest2 |
spark.synapse.diagnostic.emitter.<destination>.type |
Obligatoire. Type de destination intégrée. Pour activer la destination Azure Storage, vous devez inclure AzureStorage dans ce champ. |
spark.synapse.diagnostic.emitter.<destination>.categories |
facultatif. Catégories de journaux sélectionnées séparées par des virgules. Les valeurs disponibles sont les suivantes : DriverLog , ExecutorLog , EventLog , Metrics . Si aucune valeur n’est définie, la valeur par défaut sera all (toutes les catégories). |
spark.synapse.diagnostic.emitter.<destination>.auth |
Obligatoire. AccessKey pour utiliser l’autorisation Clé d’accès du compte de stockage. SAS pour l’autorisation signatures d’accès partagé. |
spark.synapse.diagnostic.emitter.<destination>.uri |
Obligatoire. URI du dossier du conteneur d’objets blob de destination. Doit correspondre au modèle https://<my-blob-storage>.blob.core.windows.net/<container-name>/<folder-name> . |
spark.synapse.diagnostic.emitter.<destination>.secret |
facultatif. Contenu du secret (clé d’accès ou SAS). |
spark.synapse.diagnostic.emitter.<destination>.secret.keyVault |
Requis si .secret n'est pas spécifié. Nom du coffre de clés Azure dans lequel est stocké le secret (clé d’accès ou SAS). |
spark.synapse.diagnostic.emitter.<destination>.secret.keyVault.secretName |
Obligatoire si .secret.keyVault est spécifié. Nom du coffre de clés Azure dans lequel le secret (clé d’accès ou SAS) est stocké. |
spark.synapse.diagnostic.emitter.<destination>.secret.keyVault.linkedService |
Optionnel. Nom du service lié au coffre de clés Azure. Quand il est activé dans le pipeline Synapse, ceci est nécessaire pour obtenir le secret auprès d’AKV. (Vérifiez que MSI dispose de l’autorisation de lecture sur le coffre de clés Azure). |
spark.synapse.diagnostic.emitter.<destination>.filter.eventName.match |
facultatif. Noms des événements Spark séparés par des virgules. Vous pouvez spécifier les événements à collecter. Par exemple : SparkListenerApplicationStart,SparkListenerApplicationEnd |
spark.synapse.diagnostic.emitter.<destination>.filter.loggerName.match |
facultatif. Noms des enregistreurs d’événements log4j séparés par des virgules. Vous pouvez spécifier les journaux à collecter. Par exemple : org.apache.spark.SparkContext,org.example.Logger |
spark.synapse.diagnostic.emitter.<destination>.filter.metricName.match |
facultatif. Suffixes des noms de métriques Spark séparés par des virgules. Vous pouvez spécifier les métriques à collecter. Par exemple : jvm.heap.used |
Voici un exemple d’enregistrement de journal au format JSON :
{
"timestamp": "2021-01-02T12:34:56.789Z",
"category": "Log|EventLog|Metrics",
"workspaceName": "<my-workspace-name>",
"sparkPool": "<spark-pool-name>",
"livyId": "<livy-session-id>",
"applicationId": "<application-id>",
"applicationName": "<application-name>",
"executorId": "<driver-or-executor-id>",
"properties": {
// The message properties of logs, events and metrics.
"timestamp": "2021-01-02T12:34:56.789Z",
"message": "Registering signal handler for TERM",
"logger_name": "org.apache.spark.util.SignalUtils",
"level": "INFO",
"thread_name": "main"
// ...
}
}
Les espaces de travail Azure Synapse Analytics prennent en charge l’activation de la protection contre l’exfiltration de données pour les espaces de travail. Avec la protection contre l’exfiltration de données, les journaux et les métriques ne peuvent pas être envoyés directement aux points de terminaison de destination. Vous pouvez créer des points de terminaison privés managés pour différents points de terminaison de destination ou créer des règles de pare-feu IP dans ce scénario.
Accédez à Synapse Studio > Gérer > Points de terminaison privés managés, cliquez sur le bouton Nouveau, sélectionnez Stockage Blob Azure ou Azure Data Lake Storage Gen2, puis Continuer.
Notes
Nous prenons en charge Stockage Blob Azure et Azure Data Lake Storage Gen2. Mais nous n’avons pas pu analyser le format abfss://. Les points de terminaison Azure Data Lake Storage Gen2 doivent être mis en forme en tant qu’URL d’objet blob :
https://<my-blob-storage>.blob.core.windows.net/<container-name>/<folder-name>
Choisissez votre compte de stockage Azure dans Nom du compte de stockage, puis cliquez sur le bouton Créer.
Attendez quelques minutes que le provisionnement du point de terminaison privé soit terminé.
Accédez à votre compte de stockage dans le portail Azure et, dans la page Réseau>Connexions de point de terminaison privé, sélectionnez la connexion provisionnée, puis Approuver.
Événements
31 mars, 23 h - 2 avr., 23 h
Le plus grand événement d’apprentissage Fabric, Power BI et SQL. 31 mars au 2 avril. Utilisez le code FABINSIDER pour économiser 400 $.
Inscrivez-vous aujourd’huiEntrainement
Module
Intégrer des pools SQL et Apache Spark dans Azure Synapse Analytics - Training
Intégrer des pools SQL et Apache Spark dans Azure Synapse Analytics
Certification
Microsoft Certified : Azure Data Engineer Associate - Certifications
Faites la démonstration d’une compréhension des tâches d’engineering données courantes pour implémenter et gérer des charges de travail d’engineering données sur Microsoft Azure en utilisant un certain nombre de services Azure.
Documentation
Dans ce tutoriel, vous allez voir comment utiliser l’extension d’émission de diagnostic Synapse Apache Spark qui permet d’envoyer vers Azure Event Hubs des journaux, des journaux des événements et des métriques concernant les applications Apache Spark.
Monitorer des applications Apache Spark avec Azure Log Analytics - Azure Synapse Analytics
Découvrez comment activer le connecteur Synapse Studio pour collecter et envoyer les métriques et les journaux de l’application Apache Spark à votre espace de travail Log Analytics.
Comment surveiller les pools Apache Spark dans Synapse Studio - Azure Synapse Analytics
Découvrez comment surveiller vos pools Apache Spark à l’aide de Synapse Studio.