Condividi tramite


Monitorare le applicazioni Apache Spark con Azure Log Analytics

Questa esercitazione spiega come abilitare il connettore Synapse Studio integrato in Log Analytics. È quindi possibile raccogliere e inviare metriche e log dell'applicazione Apache Spark all'area di lavoro Log Analytics. Infine, è possibile usare una cartella di lavoro di Monitoraggio di Azure per visualizzare le metriche e i log.

Configurare informazioni sull’area di lavoro

Seguire questa procedura per configurare le informazioni necessarie in Synapse Studio.

Passaggio 1: creare un'area di lavoro Log Analytics

Per creare questa area di lavoro, vedere una delle risorse seguenti:

Passaggio 2: Raccogliere informazioni di configurazione

Usare una delle opzioni seguenti per preparare la configurazione.

Opzione 1: configurare con l'ID e la chiave dell'area di lavoro Log Analytics

Raccogliere i valori seguenti per la configurazione di Spark:

  • <LOG_ANALYTICS_WORKSPACE_ID>: ID dell'area di lavoro Log Analytics.
  • <LOG_ANALYTICS_WORKSPACE_KEY>: chiave di Log Analytics. Per trovarla, nel portale di Azure andare a Area di lavoro Log Analytics>Agenti>Chiave primaria.
spark.synapse.logAnalytics.enabled true
spark.synapse.logAnalytics.workspaceId <LOG_ANALYTICS_WORKSPACE_ID>
spark.synapse.logAnalytics.secret <LOG_ANALYTICS_WORKSPACE_KEY>

Opzione 2: configurare con Azure Key Vault

Nota

È necessario concedere l'autorizzazione del segreto di lettura agli utenti che invieranno applicazioni Apache Spark. Per ulteriori informazioni, vedere Fornire l'accesso a chiavi, certificati e segreti di Key Vault con un controllo degli accessi in base al ruolo di Azure. Quando si abilita questa funzionalità in una pipeline di Synapse, è necessario usare l'opzione 3. È necessario per ottenere il segreto da Azure Key Vault con identità gestita dell'area di lavoro.

Per configurare Azure Key Vault per archiviare la chiave dell'area di lavoro, seguire questa procedura:

  1. Creare e andare all'insieme di credenziali delle chiavi nel portale di Azure.

  2. Nella pagina di impostazioni dell’insieme di credenziali delle chiavi selezionare Segreti.

  3. Seleziona Genera/Importa.

  4. Nella schermata Crea un segreto selezionare i seguenti valori:

    • Nome: immettere un nome per il segreto. Per impostazione predefinita, immettere SparkLogAnalyticsSecret.
    • Valore: immettere per <LOG_ANALYTICS_WORKSPACE_KEY> il segreto.
    • Lasciare invariati gli altri valori predefiniti. Selezionare Crea.
  5. Raccogliere i valori seguenti per la configurazione di Spark:

    • <LOG_ANALYTICS_WORKSPACE_ID>: l'ID area di lavoro Azure Log Analytics.
    • <AZURE_KEY_VAULT_NAME>: nome dell'insieme di credenziali delle chiavi configurato.
    • <AZURE_KEY_VAULT_SECRET_KEY_NAME> (facoltativo): nome del segreto nell'insieme di credenziali delle chiavi per la chiave dell'area di lavoro. Il valore predefinito è SparkLogAnalyticsSecret.
spark.synapse.logAnalytics.enabled true
spark.synapse.logAnalytics.workspaceId <LOG_ANALYTICS_WORKSPACE_ID>
spark.synapse.logAnalytics.keyVault.name <AZURE_KEY_VAULT_NAME>
spark.synapse.logAnalytics.keyVault.key.secret <AZURE_KEY_VAULT_SECRET_KEY_NAME>

Nota

È anche possibile archiviare l'ID dell'area di lavoro in Key Vault. Fare riferimento ai passaggi precedenti e archiviare l'ID dell'area di lavoro con il nome del segreto SparkLogAnalyticsWorkspaceId. In alternativa, è possibile usare la configurazione spark.synapse.logAnalytics.keyVault.key.workspaceId per specificare il nome del segreto ID dell’area di lavoro in Key Vault.

Opzione 3. Configurare con un servizio collegato

Nota

In questa opzione è necessario concedere l'autorizzazione del segreto di lettura all'identità gestita dell'area di lavoro. Per ulteriori informazioni, vedere Fornire l'accesso a chiavi, certificati e segreti di Key Vault con un controllo degli accessi in base al ruolo di Azure.

Per configurare un servizio collegato di Key Vault in Synapse Studio per archiviare la chiave dell'area di lavoro, seguire questa procedura:

  1. Seguire tutti i passaggi della sezione precedente, "Opzione 2".

  2. Creare un servizio collegato Key Vault in Synapse Studio:

    a. Andare a Studio>Gestisci>Servizi collegati e selezionare Nuovo.

    b. Nella casella di ricerca cercare Azure Key Vault.

    c. Immettere un nome per il servizio collegato.

    d. Scegliere l'insieme di credenziali delle chiavi e selezionare Crea.

  3. Aggiungere un elemento spark.synapse.logAnalytics.keyVault.linkedServiceName alla configurazione di Apache Spark.

spark.synapse.logAnalytics.enabled true
spark.synapse.logAnalytics.workspaceId <LOG_ANALYTICS_WORKSPACE_ID>
spark.synapse.logAnalytics.keyVault.key.secret <AZURE_KEY_VAULT_SECRET_KEY_NAME>
spark.synapse.logAnalytics.keyVault.linkedServiceName <LINKED_SERVICE_NAME>

Per un elenco delle configurazioni di Apache Spark, vedere Configurazioni di Apache Spark disponibili

Passaggio 3: Creare una configurazione di Apache Spark

È possibile creare una configurazione di Apache Spark nell'area di lavoro e quando si crea la definizione del processo Apache Spark o Notebook è possibile selezionare la configurazione di Apache Spark che si vuole usare con il pool di Apache Spark. Quando si seleziona questa voce, vengono visualizzati i dettagli della configurazione.

  1. Selezionare Gestisci>configurazioni di Apache Spark.

  2. Selezionare Il pulsante Nuovo per creare una nuova configurazione di Apache Spark.

  3. Dopo aver selezionato Nuovo pulsante, verrà aperta la nuova pagina di configurazione di Apache Spark.

    Screenshot della creazione della configurazione Spark.

  4. In Nomeè possibile immettere il nome preferito e valido.

  5. In Descrizioneè possibile immettere una descrizione.

  6. In Annotazioni, è possibile aggiungere annotazioni facendo clic sul pulsante Nuovo; è anche possibile eliminare le annotazioni esistenti selezionando e facendo clic sul pulsante Elimina.

  7. Per Proprietà di configurazione, aggiungere tutte le proprietà dall'opzione di configurazione scelta selezionando il pulsante Aggiungi . Per Proprietà aggiungere il nome della proprietà come elencato e per Valore usare il valore raccolto durante il passaggio 2. Se non si aggiunge una proprietà, Azure Synapse userà il valore predefinito, se applicabile.

    Screenshot con un esempio per l'aggiornamento delle proprietà di configurazione.

Inviare un'applicazione Apache Spark e visualizzare i log e le metriche

In tal caso, eseguire la procedura seguente:

  1. Inviare un'applicazione Apache Spark al pool di Apache Spark configurato nel passaggio precedente. È possibile usare uno dei modi seguenti per eseguire questa operazione:

    • Eseguire un notebook in Synapse Studio.
    • In Synapse Studio inviare un processo batch Apache Spark tramite una definizione di processo Apache Spark.
    • Eseguire una pipeline contenente l'attività Apache Spark.
  2. Andare all'area di lavoro Log Analytics specificata e visualizzare le metriche e i log dell'applicazione all'avvio dell'esecuzione dell'applicazione Apache Spark.

Scrivere log di applicazioni personalizzati

È possibile usare la libreria Apache Log4j per scrivere log personalizzati.

Esempio per Scala:

%%spark
val logger = org.apache.log4j.LogManager.getLogger("com.contoso.LoggerExample")
logger.info("info message")
logger.warn("warn message")
logger.error("error message")
//log exception
try {
      1/0
 } catch {
      case e:Exception =>logger.warn("Exception", e)
}
// run job for task level metrics
val data = sc.parallelize(Seq(1,2,3,4)).toDF().count()

Esempio per PySpark:

%%pyspark
logger = sc._jvm.org.apache.log4j.LogManager.getLogger("com.contoso.PythonLoggerExample")
logger.info("info message")
logger.warn("warn message")
logger.error("error message")

Usare la cartella di lavoro di esempio per visualizzare le metriche e i log

  1. Scaricare la cartella di lavoro.

  2. Aprire e copiare il contenuto del file della cartella di lavoro.

  3. Nel portale di Azure selezionare l'area di lavoro Log Analytics>Cartelle di lavoro.

  4. Aprire la cartella di lavoro Vuota. Usare la modalità Editor avanzato selezionando l'icona </>.

  5. Incollare su qualsiasi codice JSON esistente.

  6. Selezionare Applica seguito da Fine modifica.

    Screenshot che mostra una nuova cartella di lavoro.

    Screenshot che mostra come importare una cartella di lavoro.

Inviare quindi l'applicazione Apache Spark al pool di Apache Spark configurato. Dopo che l'applicazione passa a uno stato in esecuzione, scegliere l'applicazione in esecuzione nell'elenco a discesa delle cartelle di lavoro.

Screenshot che mostra una cartella di lavoro.

È possibile personalizzare la cartella di lavoro. Ad esempio, è possibile usare query Kusto e configurare gli avvisi.

Screenshot che mostra la personalizzazione di una cartella di lavoro con una query e avvisi.

Eseguire query sui dati con Kusto

Di seguito è riportato un esempio di esecuzione di query sugli eventi di Apache Spark:

SparkListenerEvent_CL
| where workspaceName_s == "{SynapseWorkspace}" and clusterName_s == "{SparkPool}" and livyId_s == "{LivyId}"
| order by TimeGenerated desc
| limit 100 

Di seguito è riportato un esempio di esecuzione di query sui log del driver e sugli executor dell'applicazione Apache Spark:

SparkLoggingEvent_CL
| where workspaceName_s == "{SynapseWorkspace}" and clusterName_s == "{SparkPool}" and livyId_s == "{LivyId}"
| order by TimeGenerated desc
| limit 100

Di seguito è riportato un esempio di query sulle metriche di Apache Spark:

SparkMetrics_CL
| where workspaceName_s == "{SynapseWorkspace}" and clusterName_s == "{SparkPool}" and livyId_s == "{LivyId}"
| where name_s endswith "jvm.total.used"
| summarize max(value_d) by bin(TimeGenerated, 30s), executorId_s
| order by TimeGenerated asc

Creare e gestire avvisi

Gli utenti possono eseguire query per valutare metriche e log a una frequenza impostata e generare un avviso in base ai risultati. Per altre informazioni, vedere Creare, visualizzare e gestire i registri con Monitoraggio di Azure.

Area di lavoro di Synapse con protezione dall'esfiltrazione dati abilitata

Dopo aver creato l'area di lavoro di Synapse con la protezione dell'esfiltrazione dei dati abilitata.

Quando si vuole abilitare questa funzionalità, è necessario creare richieste di connessione dell'endpoint privato gestito agli ambiti di collegamento privato di Monitoraggio di Azure (AMPLS) nei tenant Microsoft Entra approvati dell'area di lavoro.

È possibile seguire questa procedura per creare una connessione dell'endpoint privato gestito agli ambiti di collegamento privato di Monitoraggio di Azure :You can follow below steps to create a managed private endpoint connection to Azure Monitor private link scopes (AMPLS):

  1. Se non è presente AMPLS, è possibile seguire la configurazione della connessione di Monitoraggio di Azure collegamento privato per crearne una.
  2. Passare a AMPLS in portale di Azure, nella pagina Risorse di Monitoraggio di Azure selezionare Aggiungi per aggiungere la connessione all'area di lavoro Azure Log Analytics.
  3. Passare a Synapse Studio > Gestisci > endpoint privati gestiti, selezionare Nuovo pulsante, selezionare Monitoraggio di Azure collegamento privato Ambiti e continuare.

    Screenshot della creazione dell'endpoint privato gestito di AMPLS 1.

  4. Scegliere il collegamento privato Ambito di Monitoraggio di Azure creato e selezionare il pulsante Crea.

    Screenshot della creazione dell'endpoint privato gestito di AMPLS 2.

  5. Attendere alcuni minuti per effettuare il provisioning di endpoint privati.
  6. Passare di nuovo a AMPLS in portale di Azure pagina Connessioni endpoint privato selezionare la connessione di cui è stato effettuato il provisioning e Approva.

Nota

  • L'oggetto AMPLS presenta diversi limiti da considerare durante la pianificazione della configurazione collegamento privato. Per una revisione più approfondita di questi limiti, vedere Limiti AMPLS.
  • Controllare se si dispone dell'autorizzazione necessaria per creare un endpoint privato gestito.