Erstellen einer Überwachung mithilfe der Databricks-Benutzeroberfläche
In diesem Artikel wird veranschaulicht, wie Sie mithilfe der Databricks-Benutzeroberfläche eine Datenüberwachung erstellen. Sie können auch die API verwenden.
Gehen Sie wie folgt vor, um auf die Databricks-Benutzeroberfläche zuzugreifen:
- Klicken Sie in der linken Seitenleiste des Arbeitsbereichs auf , um den Katalog-Explorer zu öffnen.
- Navigieren Sie zu der Tabelle, die Sie überwachen möchte.
- Klicken Sie auf die Registerkarte Qualität.
- Klicken Sie auf die Schaltfläche Erste Schritte.
- Wählen Sie unter Überwachung erstellen die gewünschten Optionen aus, um die Überwachung einzurichten.
Profilerstellung
Wählen Sie im Menü Profiltyp den Typ von Überwachung aus, den Sie erstellen möchten. Die Profiltypen werden in der Tabelle dargestellt.
Profiltyp | Beschreibung |
---|---|
Zeitreihenprofil | Eine Tabelle mit über die Zeit gemessenen Werten. Diese Tabelle enthält eine Zeitstempelspalte. |
Rückschlussprofil | Eine Tabelle mit vorhergesagten Werten, die von einem Machine Learning-Klassifizierungs- oder Regressionsmodell ausgegeben werden. Diese Tabelle enthält einen Zeitstempel, eine Modell-ID, Modelleingaben (Features), eine Spalte mit Modellvorhersagen und optionale Spalten, die eindeutige Beobachtungs-IDs und Bezeichnungen für Referenzdaten enthalten. Sie kann auch Metadaten enthalten, z. B. demografische Informationen, die nicht als Eingabe für das Modell verwendet werden, aber für Fairness- und Trenduntersuchungen oder andere Überwachungen nützlich sein können. |
Momentaufnahmeprofil | Jede von Delta verwaltete Tabelle, externe Tabelle, Sicht, materialisierte Sicht oder Streamingtabelle. |
Wenn Sie TimeSeries
oder Inference
auswählen, sind zusätzliche Parameter erforderlich, die in den folgenden Abschnitten beschrieben werden.
Hinweis
- Wenn Sie zum ersten Mal eine Zeitreihe oder ein Rückschlussprofil erstellen, analysiert der Monitor nur Daten aus den 30 Tagen vor der Erstellung. Nachdem der Monitor erstellt wurde, werden alle neuen Daten verarbeitet.
- Monitore, die für materialisierte Ansichten definiert sind, und Streamingtabellen unterstützen keine inkrementelle Verarbeitung.
Tipp
Für TimeSeries
- und Inference
-Profile ist es eine bewährte Praxis, den Änderungsdaten-Feed (CDF) auf Ihrer Tabelle zu aktivieren. Wenn CDF aktiviert ist, werden nur neu angefügte Daten verarbeitet, anstatt die gesamte Tabelle bei jeder Aktualisierung erneut zu verarbeiten. Dadurch wird die Ausführung effizienter und die Kosten reduziert, während Sie die Überwachung über viele Tabellen hinweg skalieren.
TimeSeries
-Profile
Für ein TimeSeries
-Profil müssen Sie die folgende Auswahl treffen:
- Geben Sie die Metrikgranularität an, die bestimmt, wie die Daten in Zeitfenstern partitioniert werden sollen.
- Geben Sie die Zeitstempelspalte an, die Tabellenspalte, die den Zeitstempel enthält. Beim Datentyp der Zeitstempelspalte muss es sich entweder um
TIMESTAMP
oder einen Typ handeln, der mithilfe derto_timestamp
PySpark-Funktion in Zeitstempel konvertiert werden kann.
Inference
-Profile
Für ein Inference
-Profil müssen Sie zusätzlich zu den Granularitäten und dem Zeitstempel Optionen für die folgenden Einstellungen auswählen:
- Wählen Sie für den Problemtyp entweder Klassifizierung oder Regression aus.
- Geben Sie die Vorhersagespalte an, also die Spalte mit den vorhergesagten Werten des Modells.
- Geben Sie optional die Bezeichnungsspalte an, d. h. die Spalte mit den Referenzdaten für Modellvorhersagen.
- Geben Sie die Modell-ID-Spalte an, also die Spalte, die die ID des Modells enthält, das für die Vorhersage verwendet wird.
Planen
Um eine Überwachung so einzurichten, dass sie nach einem bestimmten Zeitplan ausgeführt wird, wählen Sie Nach Zeitplan aktualisieren und anschließend die Häufigkeit und die Uhrzeit aus, zu der die Überwachung ausgeführt werden soll. Wenn die Überwachung nicht automatisch ausgeführt werden soll, wählen Sie Manuell aktualisieren aus. Wenn Sie Manuell aktualisieren auswählen, können Sie die Metriken später auf der Registerkarte Qualität aktualisieren.
Benachrichtigungen
Um E-Mail-Benachrichtigungen für einen Monitor einzurichten, geben Sie die E-Mail-Adresse für die Benachrichtigung ein, und wählen Sie die zu aktivierenden Benachrichtigungen aus. Es werden bis zu 5 E-Mail-Adressen pro Benachrichtigungsereignistyp unterstützt.
Allgemein
Im Abschnitt Allgemein müssen Sie eine erforderliche Einstellung und einige zusätzliche Konfigurationsoptionen angeben:
- Sie müssen das Unity Catalog-Schema angeben, in dem die vom Monitor erstellten Metriktabellen gespeichert werden. Der Speicherort muss im Format „{catalog}.{schema}“ angegeben werden.
Sie können auch die folgenden Einstellungen angeben:
Assets-Verzeichnis. Geben Sie den absoluten Pfad zu einem vorhandenen Verzeichnis zum Speichern von Überwachungsressourcen wie dem generierten Dashboard ein. Standardmäßig werden Ressourcen im Standardverzeichnis „/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}“ gespeichert. Wenn Sie einen anderen Speicherort in diesem Feld eingeben, werden Ressourcen unter „/{table_name}“ im von Ihnen angegebenen Verzeichnis erstellt. Dieses Verzeichnis kann sich an einer beliebigen Stelle im Arbeitsbereich befinden. Für Überwachungen, die innerhalb einer Organisation freigegeben werden sollen, können Sie einen Pfad im Verzeichnis „/Shared/“ verwenden.
Dieses Feld kann nicht leer gelassen werden.
Name der Unity Catalog-Baselinetabelle. Name einer Tabelle oder Ansicht, die Baselinedaten für den Vergleich enthält. Weitere Informationen zu Baselinetabellen finden Sie unter Primäre Eingabetabelle und Baselinetabelle.
Slicingausdrücke für Metriken. Mit Slicingausdrücken können Sie Teilmengen der Tabelle definieren, die zusätzlich zur Tabelle als Ganzes überwacht werden sollen. Um einen Slicingausdruck zu erstellen, klicken Sie auf Ausdruck hinzufügen, und geben Sie die Ausdrucksdefinition ein. Der Ausdruck
"col_2 > 10"
generiert beispielsweise zwei Slices: einen fürcol_2 > 10
und einen fürcol_2 <= 10
. Ein weiteres Beispiel ist der Ausdruck"col_1"
, der einen Slice für jeden eindeutigen Wert incol_1
generiert. Die Daten werden nach jedem Ausdruck unabhängig voneinander gruppiert, sodass für jedes Prädikat und seine Ergänzungen ein eigener Slice entsteht.Benutzerdefinierte Metriken: Benutzerdefinierte Metriken werden wie alle integrierten Metriken in den Metriktabellen angezeigt. Nähere Informationen finden Sie unter Verwenden von benutzerdefinierten Metriken mit Databricks Lakehouse Monitoring. Klicken Sie zum Konfigurieren einer benutzerdefinierten Metrik auf Benutzerdefinierte Metrik hinzufügen.
- Geben Sie einen Namen für die benutzerdefinierte Metrik ein.
- Wählen Sie den Typ der benutzerdefinierten Metrik aus, wobei
Aggregate
,Derived
oderDrift
zulässig ist. Die Definitionen finden Sie unter Typen benutzerdefinierter Metriken. - Wählen Sie in der Dropdownliste unter Eingabespalten die Spalten aus, auf die die Metrik angewendet werden soll.
- Wählen Sie im Feld Ausgabetyp den Spark-Datentyp der Metrik aus.
- Geben Sie im Feld Definition den SQL-Code ein, der die benutzerdefinierte Metrik definiert.
Bearbeiten von Überwachungseinstellungen in der Benutzeroberfläche
Nachdem Sie eine Überwachung erstellt haben, können Sie Änderungen an den Überwachungseinstellungen vornehmen, indem Sie auf der Registerkarte Qualität auf die Schaltfläche Überwachungskonfiguration bearbeiten klicken.
Aktualisieren und Anzeigen der Ergebnisse der Benutzeroberfläche
Um die Überwachung manuell auszuführen, klicken Sie auf Metriken aktualisieren.
Informationen zu den in Metriktabellen für die Überwachung gespeicherten Statistiken finden Sie unter Metriktabellen für die Überwachung. Metriktabellen sind Unity Catalog-Tabellen. Sie können sie in Notebooks oder im SQL-Abfrage-Explorer abfragen und im Katalog-Explorer anzeigen.
Steuern des Zugriffs auf Ausgaben der Überwachung
Die Metriktabellen und Dashboard, die von einer Überwachung erstellt werden, gehören dem/r Benutzer*in, der/die die Überwachung erstellt hat. Sie können mit Unity Catalog-Berechtigungen den Zugriff auf Metriktabellen steuern. Wenn Sie Dashboards in einem Arbeitsbereich freigeben möchten, klicken Sie oben rechts im Dashboard auf die Schaltfläche Freigeben.
Löschen einer Überwachung über die Benutzeroberfläche
Um eine Überwachung über die Benutzeroberfläche zu löschen, klicken Sie auf das Menü mit den drei senkrechten Punkten neben der Schaltfläche Metriken aktualisieren, und wählen Sie Überwachung löschen aus.