Not
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Viktigt!
Den här funktionen finns i Beta.
Den här sidan beskriver vad avvikelseidentifiering är, vad den övervakar och hur du använder den.
Viktigt!
Avvikelseidentifiering använder standardlagring.
Vad är avvikelseidentifiering?
Med hjälp av avvikelseidentifiering kan du enkelt övervaka datakvaliteten för alla tabeller i ett schema. Databricks utnyttjar dataintelligens genom att titta på historiska mönster för att automatiskt utvärdera datakvaliteten och specifikt utvärdera fullständigheten och färskheten i varje tabell. Dataägare har åtkomst till loggningstabellen, vilket gör att de snabbt kan identifiera och lösa avvikelser i hela metaarkivet. Resultat på katalog-, schema- och tabellnivå är tillgängliga i Katalogutforskaren eller Styrningshubben (privat förhandsversion).
Kravspecifikation
- Unity Catalog-aktiverad arbetsyta
- Befintliga användare behöver serverlös beräkning aktiverad. Anvisningar finns i Ansluta till serverlös beräkning.
- Om du vill aktivera avvikelseidentifiering i ett schema måste du ha behörigheten HANTERA SCHEMA eller HANTERA CATALOG i katalogschemat.
Hur fungerar avvikelseidentifiering?
Databricks skapar ett bakgrundsjobb som övervakar tabeller för färskhet och fullständighet. Databricks använder intelligent genomsökning för att avgöra när tabeller ska skannas.
Intelligent genomsökning justerar automatiskt genomsökningsfrekvensen med tabellens uppdateringstakt, vilket säkerställer att insikterna håller sig uppdaterade utan manuell schemaläggning. Systemet prioriterar tabeller med hög påverkan, vilket bestäms av popularitet och nedströmsanvändning, samtidigt som mindre kritiska tabeller skannas mindre ofta eller hoppar över dem helt och hållet.
Färskhet avser hur nyligen en tabell har uppdaterats. Datakvalitetsövervakning analyserar historiken för ändringar i en tabell och bygger en tabellmodell för att förutsäga tidpunkten för nästa ändring. Om en incheckning är ovanligt sent markeras tabellen som inaktuell.
Fullständighet avser antalet rader som förväntas skrivas till tabellen under de senaste 24 timmarna. Datakvalitetsövervakning analyserar det historiska radantalet, och baserat på dessa data förutsäger ett intervall med förväntat antal rader. Om antalet rader som har bekräftats under de senaste 24 timmarna är mindre än den nedre gränsen för det här intervallet, markeras en tabell som ofullständig.
Anmärkning
Händelsefärskhet, som baseras på kolumner för händelsetid och fördröjning vid inmatning, var endast tillgänglig för användare av datakvalitetsövervakningens betaversion. I den aktuella versionen stöds inte händelse färskhet.
Avvikelseidentifiering ändrar inte några tabeller som övervakas och lägger inte heller till omkostnader för jobb som fyller i dessa tabeller.
Aktivera avvikelseidentifiering i ett schema
Om du vill aktivera avvikelseidentifiering i ett schema går du till schemat i Unity Catalog.
Klicka på fliken Information på schemasidan.
Klicka på Aktivera. I dialogrutan Datakvalitetsövervakning klickar du på Spara.
En genomsökning initieras. Databricks söker automatiskt igenom varje tabell med samma frekvens som den uppdateras, vilket ger up-to-date insights utan att kräva manuell konfiguration för varje tabell. För scheman som aktiverats före den 24 september 2025 använde Databricks övervakningen på historiska data ("backtesting") för den första genomsökningen för att utvärdera kvaliteten på dina tabeller, som om det hade aktiverats i ditt schema för två veckor sedan.
När genomsökningen är klar loggas identifierade kvalitetsproblem i utdata systemtabell där insikterna visas i användargränssnittet. För mer information, se Loggade resultat för avvikelseidentifiering. Du kan komma åt användargränssnittet när som helst genom att klicka på Visa resultat bredvid växlingsknappen Datakvalitetsövervakning .
Inaktivera avvikelseidentifiering
Så här inaktiverar du avvikelseidentifiering:
Klicka på pennikonen.
I dialogrutan Datakvalitetsövervakning klickar du på växlingsknappen.
Viktigt!
När du inaktiverar avvikelseidentifiering tas avvikelseidentifieringsjobbet och alla tabeller och information om avvikelseidentifiering bort. Det går inte att ångra den här åtgärden.
Klicka på Spara.
Användargränssnitt för datakvalitetsövervakning
Viktigt!
Den 7 oktober 2025 släppte Databricks en ny version av datakvalitetsövervakning. Scheman som är aktiverade för övervakning av datakvalitet på eller efter det datumet har ett nytt resultatgränssnitt.
Information om det nya användargränssnittet finns i Visa datakvalitetsövervakningsresultat i användargränssnittet.
Information om det gamla användargränssnittet finns i Panelen för datakvalitet (gammal).
Databricks rekommenderar att du aktiverar den nya versionen för alla dina befintliga scheman. Den äldre instrumentpanelen från betaversionen uppdateras inte längre.
Om du vill aktivera den nya versionen använder du växlingsknappen Datakvalitetsövervakning för att inaktivera funktionen och växlar sedan igen för att återaktivera den.
Visa datakvalitetsövervakningsresultat i användargränssnittet
När du har aktiverat datakvalitetsövervakning i ett schema kan du öppna resultatsidan genom att klicka på Visa resultat. Du kan också komma åt resultat från alla scheman som har övervakning aktiverat i Katalogutforskaren.
Resultatgränssnittet innehåller listrutor för kataloger och scheman. När du väljer en katalog fylls listrutan schema med scheman i katalogen som har datakvalitetsövervakning aktiverat.
Om du har HANTERA eller SELECT behörigheter i katalogen kan du visa incidenter på katalognivå. Om du vill visa alla incidenter i en katalog väljer du Alla scheman i listrutan Schema .
Om du vill visa incidenter för ett visst schema måste du också ha HANTERA eller SELECT behörigheter för schemat. När du väljer ett schema visas sedan incidenter för just det schemat.
Användargränssnittet har två huvudavsnitt:
- Sammanfattningsavsnitt: Visar övergripande datakvalitet för det valda omfånget, inklusive procentandelen felfria tabeller och procentandelen scheman/tabeller som för närvarande övervakas.
- Incidentavsnitt: Visar en lista över incidenter i alla övervakade tabeller i det valda omfånget. Du kan filtrera efter incidenter i viktiga tabeller som bestäms med hjälp av nedströmsanalys.
Varje incidentpost innehåller följande information:
- Orsak: Om tabellen är ohälsosam på grund av bristande färskhet eller fullständighet.
- Sedan: Tidsstämpeln när den första incidenten upptäcktes.
- Nedströmsanvändning: Ett kvalitativt mått på nedströmspåverkan (hög, medel eller låg), baserat på antalet underordnade tabeller och frågor som påverkas.
- Rotorsak: Information om överordnade jobb som bidrar till problemet (mer information finns i Granska loggresultat för avvikelseidentifiering ).
- Granska: En länk till sidan för tabellkvalitet där du kan visa historiska trender och visualiseringar som förklarar varför en avvikelse upptäcktes.
Information om tabellkvalitet
Med användargränssnittet för tabellkvalitetsinformation kan du fördjupa dig i trender och förstå varför avvikelser har identifierats för specifika tabeller i schemat. Du kan komma åt den här vyn på flera sätt:
- Från resultatgränssnittet (ny upplevelse) genom att klicka på granskningslänken i listan med incidenter.
- Från övervakningspanelen (äldre Lakeview-instrumentpanel), genom att klicka på tabellnamnet i fliken Kvalitetsöversikt.
- Från UC Table Viewer genom att gå till fliken Kvalitet på tabellsidan.
Alla alternativ tar dig till samma tabellkvalitetsinformationsvy för den valda tabellen.
Med en tabell visar användargränssnittet sammanfattningar från varje kvalitetskontroll för tabellen, med diagram över förutsagda och observerade värden vid varje tidsstämpel för utvärderingen. Graferna ritar resultat från de senaste 1 veckans data.
Om tabellen misslyckades med kvalitetskontrollerna visar användargränssnittet även alla överordnade jobb som identifierades som rotorsaken.
Konfigurera aviseringar
Information om hur du konfigurerar en Databricks SQL-avisering i utdataresultattabellen finns i Konfigurera aviseringar baserat på avvikelseidentifiering.
Begränsningar
- Avvikelseidentifiering stöder inte vyer.
- Vid fastställandet av fullständighet tas inte hänsyn till mått, till exempel fraktionen null, noll värden eller NaN.
Instrumentpanel för datakvalitet (äldre)
Anmärkning
Instrumentpanelen för datakvalitetsövervakning var endast tillgänglig för äldre användare. I den aktuella versionen använder du Visa datakvalitetsövervakningsresultat i användargränssnittet.
Den första datakvalitetsövervakaren skapar en instrumentpanel för att sammanfatta resultat och trender som härleds från loggningstabellen. Instrumentpanelen fylls automatiskt med insikter och analyser för det skannade schemat. En enda instrumentpanel skapas per arbetsyta på den här sökvägen: /Shared/Databricks Quality Monitoring/Data Quality Monitoring.
Kvalitetsöversikt
Fliken Kvalitetsöversikt visar en sammanfattning av den senaste kvalitetsstatusen för tabeller i schemat baserat på den senaste utvärderingen.
För att komma igång måste du ange loggningstabellen för schemat som du vill analysera för att fylla i instrumentpanelen.
Det översta avsnittet på instrumentpanelen visar en översikt över resultatet av genomsökningen.
Nedan visas en tabell med kvalitetsincidenter sorterade efter påverkan. Alla identifierade rotorsaker visas i kolumnen root_cause_analysis.
Under tabellen för kvalitetsincidenter finns en tabell med identifierade statiska tabeller som inte har uppdaterats på länge.
Ange parametrar för utvärdering av färskhet och fullständighet (äldre)
Anmärkning
Från och med den 21 juli 2025 stöds inte konfigurationen av jobbparametrarna för nya kunder. Om du behöver konfigurera jobbinställningarna kontaktar du Databricks.
Om du vill redigera parametrarna som styr jobbet, till exempel hur ofta jobbet körs eller namnet på den loggade resultattabellen, måste du redigera jobbparametrarna på fliken Uppgifter på jobbsidan.
I följande avsnitt beskrivs specifika inställningar. Information om hur du anger aktivitetsparametrar finns i Konfigurera aktivitetsparametrar.
Schema och meddelanden (äldre)
Om du vill anpassa schemat för jobbet eller konfigurera meddelanden använder du inställningarna Scheman och utlösare på jobbsidan. Se Automatisera jobb med scheman och utlösare.
Namn på loggningstabell (äldre)
Om du vill ändra namnet på loggningstabellen eller spara tabellen i ett annat schema redigerar du jobbaktivitetsparametern logging_table_name och anger önskat namn. Om du vill spara loggningstabellen i ett annat schema anger du det fullständiga namnet på 3-nivå.
Anpassa freshness och completeness utvärderingar (legacy)
Alla parametrar i det här avsnittet är valfria. Som standard fastställer avvikelseidentifiering tröskelvärden baserat på en analys av tabellens historik.
Dessa parametrar är fält i aktivitetsparametern metric_configs. Formatet metric_configs för är en JSON-sträng med följande standardvärden:
[
{
"disable_check": false,
"tables_to_skip": null,
"tables_to_scan": null,
"table_threshold_overrides": null,
"table_latency_threshold_overrides": null,
"static_table_threshold_override": null,
"event_timestamp_col_names": null,
"metric_type": "FreshnessConfig"
},
{
"disable_check": true,
"tables_to_skip": null,
"tables_to_scan": null,
"table_threshold_overrides": null,
"metric_type": "CompletenessConfig"
}
]
Följande parametrar kan användas för både freshness och completeness utvärderingar.
| Fältnamn | Description | Example |
|---|---|---|
tables_to_scan |
Endast de angivna tabellerna genomsöks. | ["table_to_scan", "another_table_to_scan"] |
tables_to_skip |
De angivna tabellerna hoppas över under skanningen. | ["table_to_skip"] |
disable_check |
Genomsökning kördes inte. Använd den här parametern om du bara vill inaktivera genomsökningen freshness eller bara genomsökningen completeness . |
true, false |
Följande parametrar gäller endast för freshness utvärderingen:
| Fältnamn | Description | Example |
|---|---|---|
event_timestamp_col_names |
Lista över tabeller i ditt schema som kan ha tidsstämpelkolumner. Om en tabell har en av dessa kolumner markeras Unhealthy den om det maximala värdet för den här kolumnen överskrids. Om du använder den här parametern kan utvärderingstiden och kostnaden öka. |
["timestamp", "date"] |
table_threshold_overrides |
En ordlista som består av tabellnamn och tröskelvärden (i sekunder) som anger det maximala intervallet sedan den senaste tabelluppdateringen innan en tabell markeras som Unhealthy. |
{"table_0": 86400} |
table_latency_threshold_overrides |
En ordlista som består av tabellnamn och tröskelvärden för svarstid (i sekunder) som anger det maximala intervallet sedan den senaste tidsstämpeln i tabellen innan du markerar en tabell som Unhealthy. |
{"table_1": 3600} |
static_table_threshold_override |
Tid (i sekunder) innan en tabell betraktas som en statisk tabell (det vill: en som inte längre uppdateras). | 2592000 |
Följande parameter gäller endast för completeness utvärderingen:
| Fältnamn | Description | Example |
|---|---|---|
table_threshold_overrides |
En ordlista som består av tabellnamn och tröskelvärden för radvolymer (anges som heltal). Om antalet rader som lagts till i en tabell under de senaste 24 timmarna är mindre än det angivna tröskelvärdet markeras Unhealthytabellen . |
{"table_0": 1000} |