Avvikelseidentifiering

Viktigt!

Den här funktionen finns i Beta.

Den här sidan beskriver vad avvikelseidentifiering är, vad den övervakar och hur du använder den.

Viktigt!

Avvikelseidentifiering använder standardlagring.

Vad är avvikelseidentifiering?

Med hjälp av avvikelseidentifiering kan du enkelt övervaka datakvaliteten för alla tabeller i ett schema. Databricks utnyttjar dataintelligens genom att titta på historiska mönster för att automatiskt utvärdera datakvaliteten och specifikt utvärdera fullständigheten och färskheten i varje tabell. Dataägare har åtkomst till loggningstabellen, vilket gör att de snabbt kan identifiera och lösa avvikelser i hela metaarkivet. Resultat på katalog-, schema- och tabellnivå är tillgängliga i Katalogutforskaren eller Styrningshubben (privat förhandsversion).

Kravspecifikation

  • Unity Catalog-aktiverad arbetsyta
  • Befintliga användare behöver serverlös beräkning aktiverad. Anvisningar finns i Ansluta till serverlös beräkning.
  • Om du vill aktivera avvikelseidentifiering i ett schema måste du ha behörigheten HANTERA SCHEMA eller HANTERA CATALOG i katalogschemat.

Hur fungerar avvikelseidentifiering?

Databricks skapar ett bakgrundsjobb som övervakar tabeller för färskhet och fullständighet. Databricks använder intelligent genomsökning för att avgöra när tabeller ska skannas.

Intelligent genomsökning justerar automatiskt genomsökningsfrekvensen med tabellens uppdateringstakt, vilket säkerställer att insikterna håller sig uppdaterade utan manuell schemaläggning. Systemet prioriterar tabeller med hög påverkan, vilket bestäms av popularitet och nedströmsanvändning, samtidigt som mindre kritiska tabeller skannas mindre ofta eller hoppar över dem helt och hållet.

Färskhet avser hur nyligen en tabell har uppdaterats. Datakvalitetsövervakning analyserar historiken för ändringar i en tabell och bygger en tabellmodell för att förutsäga tidpunkten för nästa ändring. Om en incheckning är ovanligt sent markeras tabellen som inaktuell.

Fullständighet avser antalet rader som förväntas skrivas till tabellen under de senaste 24 timmarna. Datakvalitetsövervakning analyserar det historiska radantalet, och baserat på dessa data förutsäger ett intervall med förväntat antal rader. Om antalet rader som har bekräftats under de senaste 24 timmarna är mindre än den nedre gränsen för det här intervallet, markeras en tabell som ofullständig.

Anmärkning

Händelsefärskhet, som baseras på kolumner för händelsetid och fördröjning vid inmatning, var endast tillgänglig för användare av datakvalitetsövervakningens betaversion. I den aktuella versionen stöds inte händelse färskhet.

Avvikelseidentifiering ändrar inte några tabeller som övervakas och lägger inte heller till omkostnader för jobb som fyller i dessa tabeller.

Aktivera avvikelseidentifiering i ett schema

Om du vill aktivera avvikelseidentifiering i ett schema går du till schemat i Unity Catalog.

  1. Klicka på fliken Information på schemasidan.

    Fliken Information för schemasidan i Katalogutforskaren.

  2. Klicka på Aktivera. I dialogrutan Datakvalitetsövervakning klickar du på Spara.

  3. En genomsökning initieras. Databricks söker automatiskt igenom varje tabell med samma frekvens som den uppdateras, vilket ger up-to-date insights utan att kräva manuell konfiguration för varje tabell. För scheman som aktiverats före den 24 september 2025 använde Databricks övervakningen på historiska data ("backtesting") för den första genomsökningen för att utvärdera kvaliteten på dina tabeller, som om det hade aktiverats i ditt schema för två veckor sedan.

  4. När genomsökningen är klar loggas identifierade kvalitetsproblem i utdata systemtabell där insikterna visas i användargränssnittet. För mer information, se Loggade resultat för avvikelseidentifiering. Du kan komma åt användargränssnittet när som helst genom att klicka på Visa resultat bredvid växlingsknappen Datakvalitetsövervakning .

Inaktivera avvikelseidentifiering

Så här inaktiverar du avvikelseidentifiering:

  1. Klicka på pennikonen.

    Pennikon i avancerade fältet på Detaljflik.

  2. I dialogrutan Datakvalitetsövervakning klickar du på växlingsknappen.

    Viktigt!

    När du inaktiverar avvikelseidentifiering tas avvikelseidentifieringsjobbet och alla tabeller och information om avvikelseidentifiering bort. Det går inte att ångra den här åtgärden.

    Växla växel i dialogrutan Datakvalitetsövervakning.

  3. Klicka på Spara.

Användargränssnitt för datakvalitetsövervakning

Viktigt!

Den 7 oktober 2025 släppte Databricks en ny version av datakvalitetsövervakning. Scheman som är aktiverade för övervakning av datakvalitet på eller efter det datumet har ett nytt resultatgränssnitt.

Information om det nya användargränssnittet finns i Visa datakvalitetsövervakningsresultat i användargränssnittet.

Information om det gamla användargränssnittet finns i Panelen för datakvalitet (gammal).

Databricks rekommenderar att du aktiverar den nya versionen för alla dina befintliga scheman. Den äldre instrumentpanelen från betaversionen uppdateras inte längre.

Om du vill aktivera den nya versionen använder du växlingsknappen Datakvalitetsövervakning för att inaktivera funktionen och växlar sedan igen för att återaktivera den.

Visa datakvalitetsövervakningsresultat i användargränssnittet

När du har aktiverat datakvalitetsövervakning i ett schema kan du öppna resultatsidan genom att klicka på Visa resultat. Du kan också komma åt resultat från alla scheman som har övervakning aktiverat i Katalogutforskaren.

Resultatgränssnittet innehåller listrutor för kataloger och scheman. När du väljer en katalog fylls listrutan schema med scheman i katalogen som har datakvalitetsövervakning aktiverat.

  • Om du har HANTERA eller SELECT behörigheter i katalogen kan du visa incidenter på katalognivå. Om du vill visa alla incidenter i en katalog väljer du Alla scheman i listrutan Schema .

    Välj Alla scheman i listrutan Schema.

  • Om du vill visa incidenter för ett visst schema måste du också ha HANTERA eller SELECT behörigheter för schemat. När du väljer ett schema visas sedan incidenter för just det schemat.

Användargränssnittet har två huvudavsnitt:

  1. Sammanfattningsavsnitt: Visar övergripande datakvalitet för det valda omfånget, inklusive procentandelen felfria tabeller och procentandelen scheman/tabeller som för närvarande övervakas.
  2. Incidentavsnitt: Visar en lista över incidenter i alla övervakade tabeller i det valda omfånget. Du kan filtrera efter incidenter i viktiga tabeller som bestäms med hjälp av nedströmsanalys.

Varje incidentpost innehåller följande information:

  • Orsak: Om tabellen är ohälsosam på grund av bristande färskhet eller fullständighet.
  • Sedan: Tidsstämpeln när den första incidenten upptäcktes.
  • Nedströmsanvändning: Ett kvalitativt mått på nedströmspåverkan (hög, medel eller låg), baserat på antalet underordnade tabeller och frågor som påverkas.
  • Rotorsak: Information om överordnade jobb som bidrar till problemet (mer information finns i Granska loggresultat för avvikelseidentifiering ).
  • Granska: En länk till sidan för tabellkvalitet där du kan visa historiska trender och visualiseringar som förklarar varför en avvikelse upptäcktes.

Incidentgränssnitt som visar sammanfattning, viktiga incidenter och alla incidentflikar.

Information om tabellkvalitet

Med användargränssnittet för tabellkvalitetsinformation kan du fördjupa dig i trender och förstå varför avvikelser har identifierats för specifika tabeller i schemat. Du kan komma åt den här vyn på flera sätt:

  • Från resultatgränssnittet (ny upplevelse) genom att klicka på granskningslänken i listan med incidenter.
  • Från övervakningspanelen (äldre Lakeview-instrumentpanel), genom att klicka på tabellnamnet i fliken Kvalitetsöversikt.
  • Från UC Table Viewer genom att gå till fliken Kvalitet på tabellsidan.

Alla alternativ tar dig till samma tabellkvalitetsinformationsvy för den valda tabellen.

Med en tabell visar användargränssnittet sammanfattningar från varje kvalitetskontroll för tabellen, med diagram över förutsagda och observerade värden vid varje tidsstämpel för utvärderingen. Graferna ritar resultat från de senaste 1 veckans data.

Användargränssnittet för detaljer om tabellkvalitet för avvikelsedetektering.

Om tabellen misslyckades med kvalitetskontrollerna visar användargränssnittet även alla överordnade jobb som identifierades som rotorsaken.

Ursprungsorsakstabell för detaljer om tabellkvalitet i användargränssnittet.

Konfigurera aviseringar

Information om hur du konfigurerar en Databricks SQL-avisering i utdataresultattabellen finns i Konfigurera aviseringar baserat på avvikelseidentifiering.

Begränsningar

  • Avvikelseidentifiering stöder inte vyer.
  • Vid fastställandet av fullständighet tas inte hänsyn till mått, till exempel fraktionen null, noll värden eller NaN.

Instrumentpanel för datakvalitet (äldre)

Anmärkning

Instrumentpanelen för datakvalitetsövervakning var endast tillgänglig för äldre användare. I den aktuella versionen använder du Visa datakvalitetsövervakningsresultat i användargränssnittet.

Den första datakvalitetsövervakaren skapar en instrumentpanel för att sammanfatta resultat och trender som härleds från loggningstabellen. Instrumentpanelen fylls automatiskt med insikter och analyser för det skannade schemat. En enda instrumentpanel skapas per arbetsyta på den här sökvägen: /Shared/Databricks Quality Monitoring/Data Quality Monitoring.

Kvalitetsöversikt

Fliken Kvalitetsöversikt visar en sammanfattning av den senaste kvalitetsstatusen för tabeller i schemat baserat på den senaste utvärderingen.

För att komma igång måste du ange loggningstabellen för schemat som du vill analysera för att fylla i instrumentpanelen.

Det översta avsnittet på instrumentpanelen visar en översikt över resultatet av genomsökningen.

Schemasammanfattning för datakvalitetsövervakare på fliken Kvalitetsöversikt på instrumentpanelen.

Nedan visas en tabell med kvalitetsincidenter sorterade efter påverkan. Alla identifierade rotorsaker visas i kolumnen root_cause_analysis.

Kvalitetsincidenter efter påverkan i fliken Kvalitetsöversikt på instrumentpanelen.

Under tabellen för kvalitetsincidenter finns en tabell med identifierade statiska tabeller som inte har uppdaterats på länge.

Ange parametrar för utvärdering av färskhet och fullständighet (äldre)

Anmärkning

Från och med den 21 juli 2025 stöds inte konfigurationen av jobbparametrarna för nya kunder. Om du behöver konfigurera jobbinställningarna kontaktar du Databricks.

Om du vill redigera parametrarna som styr jobbet, till exempel hur ofta jobbet körs eller namnet på den loggade resultattabellen, måste du redigera jobbparametrarna på fliken Uppgifter på jobbsidan.

Jobbsidan som visar ett avvikelsedetekteringsjobb.

I följande avsnitt beskrivs specifika inställningar. Information om hur du anger aktivitetsparametrar finns i Konfigurera aktivitetsparametrar.

Schema och meddelanden (äldre)

Om du vill anpassa schemat för jobbet eller konfigurera meddelanden använder du inställningarna Scheman och utlösare på jobbsidan. Se Automatisera jobb med scheman och utlösare.

Namn på loggningstabell (äldre)

Om du vill ändra namnet på loggningstabellen eller spara tabellen i ett annat schema redigerar du jobbaktivitetsparametern logging_table_name och anger önskat namn. Om du vill spara loggningstabellen i ett annat schema anger du det fullständiga namnet på 3-nivå.

Anpassa freshness och completeness utvärderingar (legacy)

Alla parametrar i det här avsnittet är valfria. Som standard fastställer avvikelseidentifiering tröskelvärden baserat på en analys av tabellens historik.

Dessa parametrar är fält i aktivitetsparametern metric_configs. Formatet metric_configs för är en JSON-sträng med följande standardvärden:

[
  {
    "disable_check": false,
    "tables_to_skip": null,
    "tables_to_scan": null,
    "table_threshold_overrides": null,
    "table_latency_threshold_overrides": null,
    "static_table_threshold_override": null,
    "event_timestamp_col_names": null,
    "metric_type": "FreshnessConfig"
  },
  {
    "disable_check": true,
    "tables_to_skip": null,
    "tables_to_scan": null,
    "table_threshold_overrides": null,
    "metric_type": "CompletenessConfig"
  }
]

Följande parametrar kan användas för både freshness och completeness utvärderingar.

Fältnamn Description Example
tables_to_scan Endast de angivna tabellerna genomsöks. ["table_to_scan", "another_table_to_scan"]
tables_to_skip De angivna tabellerna hoppas över under skanningen. ["table_to_skip"]
disable_check Genomsökning kördes inte. Använd den här parametern om du bara vill inaktivera genomsökningen freshness eller bara genomsökningen completeness . true, false

Följande parametrar gäller endast för freshness utvärderingen:

Fältnamn Description Example
event_timestamp_col_names Lista över tabeller i ditt schema som kan ha tidsstämpelkolumner. Om en tabell har en av dessa kolumner markeras Unhealthy den om det maximala värdet för den här kolumnen överskrids. Om du använder den här parametern kan utvärderingstiden och kostnaden öka. ["timestamp", "date"]
table_threshold_overrides En ordlista som består av tabellnamn och tröskelvärden (i sekunder) som anger det maximala intervallet sedan den senaste tabelluppdateringen innan en tabell markeras som Unhealthy. {"table_0": 86400}
table_latency_threshold_overrides En ordlista som består av tabellnamn och tröskelvärden för svarstid (i sekunder) som anger det maximala intervallet sedan den senaste tidsstämpeln i tabellen innan du markerar en tabell som Unhealthy. {"table_1": 3600}
static_table_threshold_override Tid (i sekunder) innan en tabell betraktas som en statisk tabell (det vill: en som inte längre uppdateras). 2592000

Följande parameter gäller endast för completeness utvärderingen:

Fältnamn Description Example
table_threshold_overrides En ordlista som består av tabellnamn och tröskelvärden för radvolymer (anges som heltal). Om antalet rader som lagts till i en tabell under de senaste 24 timmarna är mindre än det angivna tröskelvärdet markeras Unhealthytabellen . {"table_0": 1000}