Condividi tramite


Gestione della configurazione di Apache Flink® in HDInsight su AKS

Nota

Azure HDInsight su AKS verrà ritirato il 31 gennaio 2025. Prima del 31 gennaio 2025, sarà necessario eseguire la migrazione dei carichi di lavoro a Microsoft Fabric o a un prodotto Azure equivalente per evitare interruzioni improvvise dei carichi di lavoro. I cluster rimanenti nella sottoscrizione verranno arrestati e rimossi dall’host.

Solo il supporto di base sarà disponibile fino alla data di ritiro.

Importante

Questa funzionalità è attualmente disponibile solo in anteprima. Le Condizioni per l'utilizzo supplementari per le anteprime di Microsoft Azure includono termini legali aggiuntivi che si applicano a funzionalità di Azure in versione beta, in anteprima o in altro modo non ancora disponibili a livello generale. Per informazioni su questa anteprima specifica, vedere Informazioni sull'anteprima di Azure HDInsight nel servizio Azure Kubernetes. Per domande o suggerimenti sulle funzionalità, inviare una richiesta in AskHDInsight con i dettagli e seguire Microsoft per altri aggiornamenti nella Community di Azure HDInsight.

HDInsight su AKS fornisce un set di configurazioni predefinite di Apache Flink per la maggior parte delle proprietà, alcune basate su profili applicazione comuni. Tuttavia, nel caso in cui sia necessario modificare le proprietà di configurazione Flink per migliorare le prestazioni per determinate applicazioni con impostazioni di utilizzo dello stato, parallelismo o memoria, è possibile modificare la configurazione del processo Flink usando la sezione Processi Flink in HDInsight nel cluster del servizio Azure Kubernetes.

  1. Passare a Impostazioni > Processi Flink > fare clic su Aggiorna.

    Screenshot che mostra la pagina dell'aggiornamento.

  2. Fare clic su + Aggiungi una riga per modificare la configurazione.

    Screenshot del processo di aggiornamento.

    In questo caso l'intervallo di checkpoint viene modificato a livello di cluster.

  3. Aggiornare le modifiche facendo clic su OK e quindi su Salva.

  4. Una volta salvate, le nuove configurazioni vengono aggiornate in pochi minuti (circa 5).

  5. Configurazioni che possono essere aggiornate usando le impostazioni di gestione della configurazione.

    processMemory size:

  6. Le impostazioni predefinite per le dimensioni della memoria del processo o del gestore processi e attività sono la memoria configurata dall'utente durante la creazione del cluster.

  7. Questa dimensione può essere configurata usando la proprietà di configurazione seguente. Per modificare la memoria del processo di Gestione attività, usare questa configurazione.

    taskmanager.memory.process.size : <value>

    Esempio: taskmanager.memory.process.size : 2000mb

  8. Per il Gestore di processi

    jobmanager.memory.process.size : <value>

    Nota

    La memoria massima configurabile del processo è uguale alla memoria configurata per jobmanager/taskmanager.

Intervallo checkpoint

L'intervallo di checkpoint determina la frequenza con cui Flink attiva un checkpoint. È definito in millisecondi e può essere impostato usando la proprietà di configurazione seguente

execution.checkpoint.interval: <value>

L'impostazione predefinita è 60.000 millisecondi (1 min), questo valore può essere modificato in base alle esigenze.

Back-end dello stato

Il back-end dello stato determina il modo in cui Flink gestisce e mantiene lo stato dell'applicazione. Influisce sulla modalità di archiviazione dei checkpoint. È possibile configurare il back-end dello stato usando la proprietà seguente:

state.backend: <value>

Per impostazione predefinita, i cluster Apache Flink in HDInsight su AKS usano il database Rocks.

Percorso di archiviazione checkpoint

Per impostazione predefinita, i checkpoint permanenti sono consentiti se archiviati nella risorsa di archiviazione abfs configurata dall'utente. Anche se il processo non riesce, poiché i checkpoint sono persistenti, questo può essere facilmente avviato con il checkpoint più recente.

state.checkpoints.dir: <path> Sostituire <path> con il percorso desiderato in cui sono archiviati i checkpoint.

Per impostazione predefinita, è archiviato nell'account di archiviazione (ABFS), configurato dall'utente. Questo valore può essere modificato in qualsiasi percorso desiderato, purché i pod Flink possano accedervi.

Numero massimo di checkpoint simultanei

È possibile limitare il numero massimo di checkpoint simultanei impostando la proprietà seguente: checkpoint.max-concurrent-checkpoints: <value>

Sostituire <value> con il numero massimo desiderato di checkpoint simultanei. Ad esempio, 1 per consentire un solo checkpoint alla volta.

Numero massimo di checkpoint conservati

È possibile limitare il numero massimo di checkpoint da conservare impostando la proprietà seguente: state.checkpoints.num-retained: <value> Sostituire <value> con il numero massimo desiderato. Per impostazione predefinita, vengono mantenuti al massimo cinque checkpoint.

Percorso di archiviazione del punto di salvataggio

Per impostazione predefinita, i punti di salvataggio permanenti sono consentiti se archiviati nella risorsa di archiviazione abfs configurata dall'utente. Se l'utente vuole arrestare e avviare successivamente il processo con un punto di salvataggio specifico, può configurare questo percorso. state.checkpoints.dir: <path> Sostituire <path> con il percorso desiderato in cui sono archiviati i punti di salvataggio. Per impostazione predefinita, è archiviato nell'account di archiviazione, configurato dall'utente. ABFS è supportato. Questo valore può essere modificato in qualsiasi percorso desiderato, purché i pod Flink possano accedervi.

Disponibilità elevata del gestore di processi

In HDInsight su AKS, Flink usa Kubernetes come back-end. Anche se il Gestore processi ha esito negativo a causa di problemi noti/sconosciuti, il pod viene riavviato entro pochi secondi. Di conseguenza, anche se il processo viene riavviato a causa di questo problema, viene ripristinato dal checkpoint più recente.

Domande frequenti

Perché il processo riscontra un errore? Anche se i processi hanno esito negativo in modo improvviso, se i checkpoint vengono eseguiti continuamente, il processo viene riavviato per impostazione predefinita dal checkpoint più recente.

Cambiare la strategia del processo? Esistono casi d'uso in cui il processo deve essere modificato durante l'ambiente di produzione a causa di un bug a livello di processo. Durante tale periodo, l'utente può arrestare il processo, operazione che accetta automaticamente un punto di salvataggio e lo salva nella posizione del punto di salvataggio.

  1. Fare clic su savepoint e attendere il completamento di savepoint.

    Screenshot che mostra le opzioni del punto di salvataggio.

  2. Al termine del punto di salvataggio, fare clic sull'avvio e verrà visualizzata la scheda Avvia processo. Selezionare il nome del punto di salvataggio dall'elenco a discesa. Modificare eventuali configurazioni, se necessario. Quindi, fare clic su OK.

    Screenshot che mostra come avviare il processo.

Poiché il punto di salvataggio viene fornito nel processo, Flink sa da dove iniziare a elaborare i dati.

Riferimento