Skapa en övervakare med databricks-användargränssnittet
Den här artikeln visar hur du skapar en dataövervakare med hjälp av Databricks-användargränssnittet. Du kan också använda API:et.
Gör följande för att få åtkomst till Databricks-användargränssnittet:
- I den vänstra sidopanelen på arbetsytan klickar du för att öppna Katalogutforskaren.
- Gå till den tabell som du vill övervaka.
- Klicka på fliken Kvalitet .
- Klicka på knappen Kom igång .
- I Skapa övervakare väljer du de alternativ som du vill konfigurera övervakaren.
Profilering
På menyn Profiltyp väljer du den typ av övervakare som du vill skapa. Profiltyperna visas i tabellen.
Profiltyp | beskrivning |
---|---|
Tidsserieprofil | En tabell som innehåller värden som mäts över tid. Den här tabellen innehåller en tidsstämpelkolumn. |
Slutsatsdragningsprofil | En tabell som innehåller förutsagda värden som utdata från en maskininlärningsklassificering eller regressionsmodell. Den här tabellen innehåller en tidsstämpel, ett modell-ID, modellindata (funktioner), en kolumn som innehåller modellförutsägelser och valfria kolumner som innehåller unika observations-ID:er och mark sanningsetiketter. Den kan också innehålla metadata, till exempel demografisk information, som inte används som indata till modellen, men som kan vara användbara för rättvise- och biasundersökningar eller annan övervakning. |
Profil för ögonblicksbild | Alla deltahanterade tabeller, externa tabeller, vyer, materialiserade vyer eller direktuppspelningstabeller. |
Om du väljer TimeSeries
eller Inference
krävs ytterligare parametrar och beskrivs i följande avsnitt.
Kommentar
- När du först skapar en tidsserie- eller slutsatsdragningsprofil analyserar övervakaren endast data från de 30 dagarna innan den skapas. När övervakaren har skapats bearbetas alla nya data.
- Övervakare som definierats för materialiserade vyer och strömmande tabeller stöder inte inkrementell bearbetning.
Dricks
För TimeSeries
och Inference
profiler är det bästa praxis att aktivera ändringsdataflöde (CDF) i tabellen. När CDF är aktiverat bearbetas endast nyligen tillagda data i stället för att bearbeta hela tabellen igen varje uppdatering. Detta gör körningen mer effektiv och minskar kostnaderna när du skalar övervakning över många tabeller.
TimeSeries
profil
För en TimeSeries
profil måste du göra följande val:
- Ange måttkornigheter som avgör hur data ska partitioneras i fönster över tid.
- Ange kolumnen Tidsstämpel, kolumnen i tabellen som innehåller tidsstämpeln. Datatypen för tidsstämpelkolumnen måste vara antingen
TIMESTAMP
eller en typ som kan konverteras till tidsstämplar med funktionento_timestamp
PySpark.
Inference
profil
För en Inference
profil, förutom kornigheterna och tidsstämpeln, måste du göra följande val:
- Välj problemtyp, antingen klassificering eller regression.
- Ange kolumnen Förutsägelse, kolumnen som innehåller modellens förutsagda värden.
- Du kan också ange kolumnen Etikett, kolumnen som innehåller grundsanningen för modellförutsägelser.
- Ange kolumnen Modell-ID, den kolumn som innehåller ID:t för modellen som används för förutsägelse.
Schema
Om du vill konfigurera en övervakare som ska köras enligt schema väljer du Uppdatera enligt schema och väljer frekvens och tid för övervakaren att köras. Om du inte vill att övervakaren ska köras automatiskt väljer du Uppdatera manuellt. Om du väljer Uppdatera manuellt kan du senare uppdatera måtten från fliken Kvalitet .
Meddelanden
Om du vill konfigurera e-postaviseringar för en övervakare anger du det e-postmeddelande som ska meddelas och väljer de meddelanden som ska aktiveras. Upp till 5 e-postmeddelanden stöds per typ av meddelandehändelse.
Allmänt
I avsnittet Allmänt måste du ange en obligatorisk inställning och några ytterligare konfigurationsalternativ:
- Du måste ange unity catalog-schemat där de måtttabeller som skapats av övervakaren lagras. Platsen måste vara i formatet {catalog}. {schema}.
Du kan också ange följande inställningar:
Resurskatalog. Ange den absoluta sökvägen till den befintliga katalogen för att lagra övervakningstillgångar, till exempel den genererade instrumentpanelen. Som standard lagras tillgångar i standardkatalogen: "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}". Om du anger en annan plats i det här fältet skapas tillgångar under "/{table_name}" i den katalog som du anger. Den här katalogen kan finnas var som helst på arbetsytan. För övervakare som är avsedda att delas inom en organisation kan du använda en sökväg i katalogen "/Delad/".
Det går inte att lämna fältet tomt.
Unity Catalog-baslinjetabellens namn. Namnet på en tabell eller vy som innehåller baslinjedata för jämförelse. Mer information om baslinjetabeller finns i Primär indatatabell och baslinjetabell.
Måttsnittsuttryck. Med segmenteringsuttryck kan du definiera delmängder av tabellen som ska övervakas utöver tabellen som helhet. Om du vill skapa ett segmenteringsuttryck klickar du på Lägg till uttryck och anger uttrycksdefinitionen. Uttrycket
"col_2 > 10"
genererar till exempel två sektorer: en förcol_2 > 10
och en förcol_2 <= 10
. Som ett annat exempel genererar uttrycket"col_1"
en sektor för varje unikt värde icol_1
. Data grupperas efter varje uttryck oberoende av varandra, vilket resulterar i en separat sektor för varje predikat och dess komplement.Anpassade mått. Anpassade mått visas i måtttabellerna som alla inbyggda mått. Mer information finns i Använda anpassade mått med Databricks Lakehouse Monitoring. Om du vill konfigurera ett anpassat mått klickar du på Lägg till anpassat mått.
- Ange ett namn för det anpassade måttet.
- Välj den anpassade måtttypen, en av
Aggregate
,Derived
ellerDrift
. Definitioner finns i Typer av anpassade mått. - I listrutan i Indatakolumner väljer du de kolumner som måttet ska tillämpas på.
- I fältet Utdatatyp väljer du Spark-datatypen för måttet.
- I fältet Definition anger du SQL-kod som definierar det anpassade måttet.
Redigera övervakningsinställningar i användargränssnittet
När du har skapat en övervakare kan du göra ändringar i övervakarens inställningar genom att klicka på knappen Redigera övervakningskonfiguration på fliken Kvalitet .
Uppdatera och visa övervakningsresultat i användargränssnittet
Om du vill köra övervakaren manuellt klickar du på Uppdatera mått.
Information om den statistik som lagras i övervakningsstatistiktabeller finns i Övervaka måtttabeller. Måtttabeller är Unity Catalog-tabeller. Du kan fråga dem i notebook-filer eller i SQL-frågeutforskaren och visa dem i Katalogutforskaren.
Kontrollera åtkomsten för att övervaka utdata
Måtttabellerna och instrumentpanelen som skapats av en övervakare ägs av den användare som skapade övervakaren. Du kan använda Behörigheter för Unity Catalog för att styra åtkomsten till måtttabeller. Om du vill dela instrumentpaneler i en arbetsyta klickar du på knappen Dela längst upp till höger på instrumentpanelen.
Ta bort en övervakare från användargränssnittet
Om du vill ta bort en övervakare från användargränssnittet klickar du på menyn kebab bredvid knappen Uppdatera mått och väljer Ta bort övervakare.