Dela via


Datakvalitet

Datakvalitet är en hanteringsfunktion för analys i molnskala. Den finns i landningszonen för datahantering och är en viktig del av styrningen.

Överväganden för datakvalitet

Datakvalitet är ansvaret för varje individ som skapar och använder dataprodukter. Skapare bör följa globala regler och domänregler, medan konsumenter bör rapportera datainkonsekvenser till den ägande datadomänen via en feedbackloop.

Eftersom datakvaliteten påverkar alla data som tillhandahålls till tavlan bör den börja överst i organisationen. Styrelsen bör ha insikter om kvaliteten på data som tillhandahålls till dem.

Men att vara proaktiv kräver fortfarande att du har experter på datakvalitet som kan rensa bucketar med data som kräver reparation. Undvik att push-överföra det här arbetet till ett centralt team och i stället rikta in dig på datadomänen, med specifik datakunskap, för att rensa data.

Mått för datakvalitet

Datakvalitetsmått är nyckeln till att utvärdera och öka kvaliteten på dina dataprodukter. På global nivå och domännivå måste du bestämma dina kvalitetsmått. Vi rekommenderar minst följande mått.

Mått Måttdefinitioner
Fullständighet = % totalt antal icke-nulls + icke-tomma Mäter datatillgänglighet, fält i datauppsättningen som inte är tomma och standardvärden som har ändrats. Om en post till exempel innehåller 1900-01-01 som födelsedata är det mycket troligt att fältet aldrig fylldes i.
Unikhet = % av icke-duplicerade värden Mäter distinkta värden i en viss kolumn jämfört med antalet rader i tabellen. Om du till exempel får fyra distinkta färgvärden (rött, blått, gult och grönt) i en tabell med fem rader är fältet 80 % (eller 4/5) unikt.
Konsekvens = % av data som har mönster Mäter efterlevnaden i en viss kolumn till dess förväntade datatyp eller format. Till exempel ett e-postfält som innehåller formaterade e-postadresser eller ett namnfält med numeriska värden.
Validity= % av referensmatchning Mäter lyckad datamatchning till domänreferensuppsättningen. Med tanke på ett land/region-fält (som uppfyller taxonomivärden) i ett transaktionsregistersystem är värdet för "US of A" till exempel inte giltigt.
Accuracy= % av oföränderade värden Mäter lyckad reproduktion av de avsedda värdena i flera system. Om en faktura till exempel specificerar en SKU och ett utökat pris som skiljer sig från den ursprungliga ordern är fakturaradsobjektet felaktigt.
Länkning = % av välintegrerade data Mäter lyckad association till dess tillhörande referensinformation i ett annat system. Om en faktura till exempel specificerar en felaktig SKU eller produktbeskrivning kan fakturaradsobjektet inte länkas.

Dataprofilering

Dataprofilering undersöker dataprodukter som är registrerade i datakatalogen och samlar in statistik och information om dessa data. Om du vill tillhandahålla sammanfattnings- och trendvyer om datakvaliteten över tid lagrar du dessa data i metadatalagringsplatsen mot dataprodukten.

Dataprofiler hjälper användarna att besvara frågor om dataprodukter, inklusive:

  • Kan den användas för att lösa mitt affärsproblem?
  • Överensstämmer data med vissa standarder eller mönster?
  • Vilka är några av avvikelserna i datakällan?
  • Vilka är möjliga utmaningar med att integrera dessa data i mitt program?

Användare kan visa dataproduktprofilen med hjälp av en rapporteringsinstrumentpanel på sin datamarknadsplats.

Du kan rapportera om sådana objekt som:

  • Fullständighet: Anger procentandelen data som inte är tomma eller null
  • Unikhet: Anger procentandelen data som inte dupliceras
  • Konsekvens: Anger data där dataintegritet upprätthålls

Rekommendationer för datakvalitet

För att implementera datakvalitet måste du använda både mänsklig och beräkningskraft på följande sätt:

  • Använd lösningar som innehåller algoritmer, regler, dataprofilering och mått.

  • Använd domänexperter som kan gå in när det finns ett krav på att träna en algoritm på grund av ett stort antal fel som passerar genom beräkningslagret.

  • Verifiera tidigt. Traditionella lösningar har extraherat, transformerat och läst in data innan någon datakvalitet har tillämpats. Vid den här tiden förbrukas dataprodukten redan och fel visas för underordnade dataprodukter. När data matas in från källan implementerar du i stället datakvalitetskontroller nära källorna och innan nedströmsanvändare använder dataprodukterna. Om det finns batchinmatning från datasjön gör du dessa kontroller när du flyttar data från rådata till berikade.

    Diagram över hur du implementerar datakvalitet under inmatning.

  • Innan data flyttas till det berikade lagret kontrolleras dess schema och kolumner mot de metadata som registrerats i datakatalogen.

  • Om data innehåller fel stoppas belastningen och dataprogramteamet meddelas om felet.

  • Om schemat och kolumnen checkar igenom läses data in i de berikade lagren med anpassade datatyper.

  • Innan du flyttar till det berikade lagret söker en datakvalitetsprocess efter kompatibilitet mot algoritmerna och reglerna.

Tips

Definiera datakvalitetsregler på både global nivå och domännivå. På så sätt kan företaget definiera sina standarder för varje skapad dataprodukt och göra det möjligt för datadomäner att skapa ytterligare regler som är relaterade till deras domän.

Lösningar för datakvalitet

Från och med februari 2022 är Microsoft beroende av partner, lösningar med öppen källkod och anpassade lösningar för att tillhandahålla en lösning för datakvalitet. Du uppmuntras att utvärdera partner, till exempel Informatica, Talend, CluedIn och Ataccama One.

För lösningar med öppen källkod har företag implementerat verktyget Stora förväntningar i sina datapipelines.

Sammanfattning av datakvalitet

Att åtgärda datakvaliteten kan få allvarliga konsekvenser för ett företag. Det kan leda till att affärsenheter tolkar dataprodukter på olika sätt. Den här feltolkningen kan bli kostsam för affärsbasbesluten på dataprodukter med lägre datakvalitet. Att åtgärda dataprodukter med attribut som saknas kan vara en dyr uppgift och kan kräva fullständiga omlastningar av data från antal perioder.

Validera datakvaliteten tidigt och sätt in processer för att proaktivt hantera dålig datakvalitet. En dataprodukt kan till exempel inte släppas till produktion förrän den uppnår en viss fullständighet.

Du kan använda verktyg som ett fritt val, men se till att det innehåller förväntningar (regler), datamått, profilering och möjligheten att säkra förväntningarna så att du kan implementera globala och domänbaserade förväntningar.

Nästa steg