Freigeben über


Computemetriken anzeigen

In diesem Artikel wird erläutert, wie Sie das native Computemetriktool auf der Azure Databricks-Benutzeroberfläche verwenden, um wichtige Hardware- und Spark-Metriken zu sammeln. Die Metrikbenutzeroberfläche ist für Mehrzweck- und Auftrags-Compute verfügbar.

Clustermetriken für die letzten 24 Stunden

Metriken sind in nahezu Echtzeit mit einer üblichen Verzögerung von weniger als einer Minute verfügbar. Metriken werden im vom Azure Databricks verwalteten Speicher und nicht im Speicher des Kunden gespeichert.

Serverloses Computing für Notebooks und Aufträge verwendet Abfrageerkenntnisse anstelle der Metrikbenutzeroberfläche. Weitere Informationen zu Metriken beim serverlosen Computing finden Sie unter Anzeigen von Abfrageerkenntnissen.

Zugreifen auf die Benutzeroberfläche für Computemetriken

So zeigen Sie die Benutzeroberfläche für Computemetriken an:

  1. Klicken Sie in der Randleiste auf Compute.
  2. Klicken Sie auf die Computeressource, für die Sie Metriken anzeigen möchten.
  3. Klicken Sie auf die Registerkarte Metriken.

Hardwaremetriken für alle Knoten werden standardmäßig angezeigt. Klicken Sie zum Anzeigen von Spark-Metriken auf das Dropdownmenü Hardware, und wählen Sie Spark aus. Sie können auch GPU auswählen, wenn die Instanz GPU-fähig ist.

Filtern von Metriken nach Zeitraum

Sie können Verlaufsmetriken anzeigen, indem Sie mithilfe des Datumsauswahlfilters einen Zeitbereich auswählen. Die Metriken werden jede Minute erfasst, sodass Sie nach einem beliebigen Tages-, Stunden- oder Minutenbereich der letzten 30 Tage filtern können. Klicken Sie auf das Kalendersymbol, um vordefinierte Datenbereiche auszuwählen, oder klicken Sie in das Textfeld, um benutzerdefinierte Werte zu definieren.

Hinweis

Die in den Diagrammen angezeigten Zeitintervalle werden basierend auf der angezeigten Zeitdauer angepasst. Die meisten Metriken sind Durchschnittswerte, die auf dem Zeitintervall basieren, das Sie derzeit anzeigen.

Sie können auch die neuesten Metriken abrufen, indem Sie auf die Schaltfläche Aktualisieren klicken.

Anzeigen von Metriken auf Knotenebene

Standardmäßig zeigt die Metrikseite die Metriken für alle Knoten innerhalb eines Clusters (einschließlich des Treibers) an, die über den Zeitraum gemittelt werden.

Sie können Metriken für einzelne Knoten anzeigen, indem Sie auf das Dropdownmenü "Alle Knoten " klicken und den Knoten auswählen, für den Sie Metriken anzeigen möchten. GPU-Metriken sind nur auf Einzelknotenebene verfügbar. Spark-Metriken sind für einzelne Knoten nicht verfügbar.

Um alle Ausreißerknoten innerhalb des Clusters zu identifizieren, können Sie auch Metriken für alle einzelnen Knoten auf einer einzelnen Seite anzeigen. Um auf diese Ansicht zuzugreifen, klicken Sie auf das Dropdownmenü "Alle Knoten ", und wählen Sie " Nach Knoten" aus, und wählen Sie dann die Metrikunterkategorie aus, die Sie anzeigen möchten.

Clustermetriken für die letzten 24 Stunden

Hardware-Metrik-Diagramme

Folgende Hardwaremetrikdiagramme können auf der Benutzeroberfläche für Computemetriken angezeigt werden:

  • CPU-Auslastung und aktive Knoten: Das Liniendiagramm zeigt die Anzahl der aktiven Knoten bei jedem Zeitstempel für die angegebene Berechnung an. Das Balkendiagramm zeigt den Prozentsatz der Zeit an, die die CPU für jeden Modus aufgewendet hat, basierend auf den Gesamten CPU-Sekunden-Kosten. Die Auslastungsmetrik ist der Mittelwert des im Diagramm angezeigten Zeitintervalls. Die folgenden Modi werden nachverfolgt:
    • guest: Bei Ausführung von VMs die von diesen VMs verwendete CPU
    • iowait: Zeit für das Warten auf E/A
    • idle: Zeit, in der die CPU nichts zu tun hatte
    • irq: Die für Unterbrechungsanforderungen aufgewendete Zeit
    • nice: Die Zeit, die von Prozessen mit einer positiven Genauigkeit (d. h. einer niedrigeren Priorität als andere Aufgaben) aufgewendet wurde
    • softirq: Die für Softwareunterbrechungsanforderungen aufgewendete Zeit
    • steal: Im Fall einer VM die Zeit, die andere VMs von den CPUs „gestohlen“ haben
    • system: Die im Kernel aufgewendete Zeit
    • user: Die in der Benutzerumgebung aufgewendete Zeit
  • Arbeitsspeicherauslastung und -swap: Das Liniendiagramm zeigt die gesamte Speichertauschauslastung nach Modus an, gemessen in Bytes und durchschnittlich über das angezeigte Zeitintervall. Das Balkendiagramm zeigt die Gesamtspeicherauslastung nach Modus, gemessen in Bytes und durchschnittlich über das angezeigte Zeitintervall. Die folgenden Verwendungstypen werden nachverfolgt:
    • verwendet: Gesamtspeicher auf Betriebssystemebene, einschließlich des Arbeitsspeichers, der von Hintergrundprozessen verwendet wird, die auf einer Berechnung ausgeführt werden. Da die Treiber- und Hintergrundprozesse Arbeitsspeicher nutzen, kann die Verwendung auch dann weiterhin angezeigt werden, wenn keine Spark-Aufträge ausgeführt werden.
    • free: Nicht verwendeter Arbeitsspeicher
    • buffer: Von Kernelpuffern verwendeter Speicher
    • cached: Vom Dateisystemcache auf Betriebssystemebene verwendeter Arbeitsspeicher
  • Empfangene und gesendete Netzwerkdaten: Die Anzahl der durch jedes Gerät empfangenen und gesendeten Bytes, gemittelt basierend auf dem im Diagramm angezeigten Zeitintervall.
  • Freier Dateisystemspeicher: Die Gesamtauslastung des Dateisystems nach jedem Bereitstellungspunkt, gemessen in Bytes und durchschnittlich basierend auf dem im Diagramm angezeigten Zeitintervall.

Spark-Metrikdiagramme

Die folgenden Spark-Metrikdiagramme können auf der Benutzeroberfläche für Computemetriken angezeigt werden:

  • Serverlastverteilung: Diese Kacheln zeigen die CPU-Auslastung in der letzten Minute für jeden Knoten in der Computeressource an. Jede Kachel ist ein klickbarer Link zur Metrikseite des einzelnen Knotens.
  • Aktive Vorgänge: Die Gesamtanzahl der Vorgänge, die zu einem bestimmten Zeitpunkt ausgeführt werden, wird basierend auf dem im Diagramm angezeigten Zeitintervall mittelwertiert.
  • Gesamtanzahl fehlgeschlagener Aufgaben: Die Gesamtanzahl der Aufgaben, die in Ausführungen fehlgeschlagen sind, wird basierend auf dem im Diagramm angezeigten Zeitintervall gemittelt.
  • Abgeschlossene Vorgänge insgesamt: Die Gesamtanzahl der Vorgänge, die in Ausführungsvorgängen abgeschlossen wurden, wird basierend auf dem im Diagramm angezeigten Zeitintervall mittelwertiert.
  • Gesamtanzahl der Aufgaben: Die Gesamtanzahl aller Aufgaben (laufend, fehlgeschlagen und abgeschlossen) in ausführenden Einheiten, die auf der im Diagramm angezeigten Zeitspanne basieren und gemittelt werden.
  • Gesamtmenge des Shuffle-Lesevorgangs: Die Gesamtgröße der beim Shuffle-Lesevorgang gelesenen Daten, gemessen in Bytes und gemittelt auf der Grundlage des im Diagramm angezeigten Zeitintervalls. Shuffle read ist die Summe der serialisierten Lesedaten auf allen Executors am Anfang einer Phase.
  • Total shuffle write: Die Gesamtgröße von Shuffle-Schreibdaten, gemessen in Bytes und durchschnittlich basierend auf dem Zeitintervall, das im Diagramm angezeigt wird. Shuffle Write ist die Summe aller geschriebenen serialisierten Daten auf allen Executors vor der Übertragung (normalerweise am Ende einer Phase).
  • Gesamtdauer der Aufgabe: Die insgesamt verstrichene Zeit, die die JVM für die Ausführung von Aufgaben auf Ausführungsinstanzen aufgewendet hat, gemessen in Sekunden und durchschnittlich basierend auf dem im Diagramm angezeigten Zeitintervall.

GPU-Metrikdiagramme

Hinweis

GPU-Metriken sind nur für Databricks Runtime ML 13.3 und höher verfügbar.

Die folgenden GPU-Metrikdiagramme können auf der Benutzeroberfläche für Computemetriken angezeigt werden:

  • Serverlastverteilung: Diesem Diagramm zeigt die CPU-Auslastung der letzten Minute für jeden Knoten.
  • Per-GPU-Decoderauslastung: Der Prozentsatz der GPU-Decoderauslastung, der basierend auf dem im Diagramm angezeigten Zeitintervall gemittelt wird.
  • Per-GPU Encoderauslastung: Der Prozentsatz der GPU-Encoderauslastung, der basierend auf dem im Diagramm angezeigten Zeitintervall mittelwert ist.
  • Per-GPU Framepuffer-Speicherauslastung (in Bytes): Die Speicherauslastung des Framepuffers, gemessen in Bytes und gemittelt basierend auf dem im Diagramm angezeigten Zeitintervall.
  • Per-GPU-Speicherauslastung: Der Prozentsatz der GPU-Speicherauslastung, der basierend auf dem im Diagramm angezeigten Zeitintervall gemittelt wird.
  • Per-GPU Auslastung: Prozentsatz der GPU-Auslastung, der basierend auf dem im Diagramm angezeigten Zeitintervall gemittelt wird.

Problembehandlung

Wenn für einen Zeitraum unvollständige oder fehlende Metriken angezeigt werden, kann dies eines der folgenden Probleme sein:

  • Ein Ausfall im Databricks-Dienst, der für das Abfragen und Speichern von Metriken verantwortlich ist.
  • Netzwerkprobleme auf kundenseitiger Seite.
  • Das Compute befindet sich oder war in einem fehlerhaften Zustand.