Apache Flink®-Konfigurationsverwaltung in HDInsight on AKS

Artikel
09/20/2024

Hinweis

Azure HDInsight on AKS wird am 31. Januar 2025 eingestellt. Vor dem 31. Januar 2025 müssen Sie Ihre Workloads zu Microsoft Fabric oder einem gleichwertigen Azure-Produkt migrieren, um eine abruptes Beendigung Ihrer Workloads zu vermeiden. Die verbleibenden Cluster in Ihrem Abonnement werden beendet und vom Host entfernt.

Bis zum Einstellungsdatum ist nur grundlegende Unterstützung verfügbar.

Wichtig

Diese Funktion steht derzeit als Vorschau zur Verfügung. Die zusätzlichen Nutzungsbedingungen für Microsoft Azure-Vorschauen enthalten weitere rechtliche Bestimmungen, die für Azure-Features in Betaversionen, in Vorschauversionen oder anderen Versionen gelten, die noch nicht allgemein verfügbar gemacht wurden. Informationen zu dieser spezifischen Vorschau finden Sie unter Informationen zur Vorschau von Azure HDInsight on AKS. Bei Fragen oder Funktionsvorschlägen senden Sie eine Anfrage an AskHDInsight mit den entsprechenden Details, und folgen Sie uns für weitere Updates in der Azure HDInsight-Community.

HDInsight on AKS bietet eine Reihe von Standardkonfigurationen für Apache Flink für die meisten Eigenschaften und einige, die auf gängigen Anwendungsprofilen basieren. Falls Sie jedoch Flink-Konfigurationseigenschaften optimieren müssen, um die Leistung für bestimmte Anwendungen mit Statusnutzung, Parallelität oder Speichereinstellungen zu verbessern, können Sie die Flink-Auftragskonfiguration mithilfe des Abschnitts mit Flink-Aufträgen in HDInsight on AKS-Cluster ändern.

Wechseln Sie zu „Einstellungen“ > „Flink-Aufträge“, > Klicken Sie auf „Aktualisieren“.
Klicken Sie auf + Zeile hinzufügen, um die Konfiguration zu bearbeiten.

Hier wird das Prüfpunktintervall auf Clusterebene geändert.
Übernehmen Sie die Änderungen, indem Sie auf OK und dann auf Speichern klicken.
Nach dem Speichern werden die neuen Konfigurationen in wenigen Minuten aktualisiert (etwa 5 Minuten).
Konfigurationen, die mithilfe von Konfigurationsverwaltungseinstellungen aktualisiert werden können.

processMemory size:
Die Standardeinstellung für die Größe des Prozessspeichers oder des Auftrags-Managers und des Task-Managers ist der vom Benutzer oder von der Benutzerin während der Clustererstellung konfigurierte Speicher.
Diese Größe kann mithilfe der folgenden Konfigurationseigenschaft konfiguriert werden. Verwenden Sie diese Konfiguration, um den Prozessspeicher des Task-Managers zu ändern.

taskmanager.memory.process.size : <value>

Beispiel: taskmanager.memory.process.size : 2000mb
Für Auftrags-Manager

jobmanager.memory.process.size : <value>

Hinweis

Der maximal konfigurierbare Prozessspeicher entspricht dem für jobmanager/taskmanager konfigurierten Speicher.

Prüfpunktintervall

Das Prüfpunktintervall bestimmt, wie oft Flink einen Prüfpunkt auslöst. Ist in Millisekunden angegeben und kann mithilfe der folgenden Konfigurationseigenschaft festgelegt werden:

execution.checkpoint.interval: <value>

Die Standardeinstellung ist 60.000 Millisekunden (1 Min.). Dieser Wert kann nach Bedarf geändert werden.

Status-Back-End

Das Status-Back-End bestimmt, wie Flink den Zustand Ihrer Anwendung verwaltet und speichert. Wirkt sich auf die Speicherung von Prüfpunkten aus. Sie können das Status-Back-End mithilfe der folgenden Eigenschaft konfigurieren:

state.backend: <value>

Standardmäßig verwenden Apache Flink-Cluster in HDInsight auf AKS Rocks DB.

Pfad zum Prüfpunktspeicher

Permanente Prüfpunkte sind standardmäßig zulässig, indem die Prüfpunkte in abfs-Speicher gespeichert werden, wie vom Benutzer oder von der Benutzerin konfiguriert. Auch wenn der Auftrag fehlschlägt, kann er problemlos mit dem neuesten Prüfpunkt gestartet werden, da die Prüfpunkte gespeichert werden.

state.checkpoints.dir: <path> Ersetzen Sie <path> durch den gewünschten Pfad, in dem die Prüfpunkte gespeichert sind.

Standardmäßig werden sie im Speicherkonto (ABFS) gespeichert, das vom Benutzer konfiguriert wurde. Dieser Wert kann in einen beliebigen Pfad geändert werden, solange die Flink-Pods darauf zugreifen können.

Maximale Anzahl gleichzeitiger Prüfpunkte

Sie können die maximale Anzahl gleichzeitiger Prüfpunkte einschränken, indem Sie die folgende Eigenschaft festlegen: checkpoint.max-concurrent-checkpoints: <value>

Ersetzen Sie <value> durch die gewünschte maximale Anzahl gleichzeitiger Prüfpunkte. Geben Sie beispielsweise 1 an, um jeweils nur einen Prüfpunkt zuzulassen.

Maximal beibehaltene Prüfpunkte

Sie können die maximale Anzahl beizubehaltender Prüfpunkten einschränken, indem Sie die folgende Eigenschaft festlegen: state.checkpoints.num-retained: <value>. Ersetzen sie <value> durch die gewünschte maximale Anzahl. Standardmäßig werden maximal fünf Prüfpunkte beibehalten.

Pfad zum Sicherungspunktspeicher

Permanente Sicherungspunkte sind standardmäßig zulässig, indem die Sicherungspunkte in abfs-Speicher gespeichert werden (wie vom Benutzer oder von der Benutzerin konfiguriert). Wenn der Benutzer oder die Benutzerin den Auftrag beenden und später mit einem bestimmten Sicherungspunkt starten möchte, kann er bzw. sie diesen Speicherort konfigurieren. state.checkpoints.dir: <path> Ersetzen Sie <path> durch den gewünschten Pfad, in dem die Sicherungspunkte gespeichert sind. Standardmäßig werden sie im Speicherkonto gespeichert, das vom Benutzer konfiguriert wurde. (Wir unterstützen ABFS.) Dieser Wert kann in einen beliebigen Pfad geändert werden, solange die Flink-Pods darauf zugreifen können.

Hochverfügbarkeit des Auftrags-Managers

In HDInsight on AKS verwendet Flink Kubernetes als Back-End. Auch wenn beim Auftrags-Manager aufgrund eines bekannten/unbekannten Problems zwischendurch ein Fehler auftritt, wird der Pod innerhalb weniger Sekunden neu gestartet. Selbst wenn der Auftrag aufgrund dieses Problems neu gestartet wird, wird der Auftrag daher auf Grundlage des neuesten Prüfpunkts wiederhergestellt.

Häufig gestellte Fragen

Warum schlägt der Auftrag zwischendurch fehl? Auch wenn die Aufträge plötzlich fehlschlagen, werden sie standardmäßig auf Grundlage des neuesten Prüfpunkts neu gestartet, falls kontinuierlich Prüfpunkte erstellt werden.

Möchten Sie die Auftragsstrategie zwischendurch ändern? Es gibt Anwendungsfälle, bei denen der Auftrag während der Produktion aufgrund eines Fehlers auf Auftragsebene geändert werden muss. Während dieser Zeit kann der Benutzer oder die Benutzerin den Auftrag beenden. Dadurch wird automatisch ein Sicherungspunkt erstellt und am Speicherort für Sicherungspunkte gespeichert.

Klicken Sie auf savepoint, und warten Sie, bis savepoint abgeschlossen ist.
Klicken Sie nach Abschluss des Sicherungspunkts auf „Start“, und die Registerkarte „Auftrag starten“ wird angezeigt. Wählen Sie in der Dropdownliste den Namen des Sicherungspunkts aus. Bearbeiten Sie die Konfigurationen bei Bedarf. Klicken Sie auf OK.

Da der Sicherungspunkt im Auftrag bereitgestellt wird, weiß Flink, ab welchem Punkt die Daten verarbeitet werden sollen.

Verweis

Apache Flink-Konfigurationen
Apache, Apache Kafka, Kafka, Apache Flink, Flink und zugehörige Open Source-Projektnamen sind Handelsmarken der Apache Software Foundation (ASF).

Teilen über