Dela via


Introduktion till Data Quality Services

gäller för:SQL Server

Viktigt!

Data Quality Services (DQS) tas bort i SQL Server 2025 (17.x) Preview. Vi fortsätter att stödja DQS i SQL Server 2022 (16.x) och tidigare versioner.

Den datakvalitetslösning som tillhandahålls av Data Quality Services (DQS) gör det möjligt för en dataförvaltare eller IT-tekniker att upprätthålla kvaliteten på sina data och se till att data passar för dess affärsanvändning. DQS är en kunskapsdriven lösning som tillhandahåller både datorstödda och interaktiva sätt att hantera integriteten och kvaliteten på dina datakällor. Med DQS kan du identifiera, skapa och hantera kunskap om dina data. Du kan sedan använda den kunskapen för att utföra datarensning, matchning och profilering. Du kan också använda molnbaserade tjänster för referensdataproviders i ett DQS-projekt med datakvalitet.

Affärsbehovet för DQS

Felaktiga data kan bero på fel vid användarinmatning, skada vid överföring eller lagring, felmatchade definitioner av dataordliste och andra problem med datakvalitet och processer. Att aggregera data från olika källor som använder olika datastandarder kan resultera i inkonsekventa data, liksom att tillämpa en godtycklig regel eller skriva över historiska data. Felaktiga data påverkar ett företags förmåga att utföra sina affärsfunktioner och tillhandahålla tjänster till sina kunder, vilket resulterar i förlust av trovärdighet och intäkter, kundmissnöd och efterlevnadsproblem. Automatiserade system fungerar ofta inte med felaktiga data, och dåliga data slösar bort tid och energi för personer som utför manuella processer. Felaktiga data kan orsaka förödelse med dataanalys, rapportering, datautvinning och lagerhantering.

Data av hög kvalitet är avgörande för effektiviteten hos företag och institutioner. En organisation av valfri storlek kan använda DQS för att förbättra informationsvärdet för sina data, vilket gör data mer lämpliga för den avsedda användningen. En datakvalitetslösning kan göra data mer tillförlitliga, tillgängliga och återanvändbara. Det kan förbättra fullständigheten, noggrannheten, överensstämmelsen och konsekvensen i dina data, lösa problem som orsakas av dåliga data i business intelligence- eller informationslagerarbetsbelastningar samt i operativa OLTP-system.

DQS gör det möjligt för en företagsanvändare, informationsarbetare eller IT-tekniker som varken är databasexpert eller programmerare att skapa, underhålla och köra organisationens datakvalitetsåtgärder med minimal konfigurations- eller förberedelsetid.

Bemöta det behovet med DQS

Datakvalitet definieras inte i absoluta termer. Det beror på om data är lämpliga för det syfte som de är avsedda för. DQS identifierar potentiellt felaktiga data och ger dig en bedömning av sannolikheten för att data faktiskt är felaktiga. DQS ger dig en semantisk förståelse av data så att du kan bestämma dess lämplighet. Med DQS kan du lösa problem som rör ofullständighet, bristande överensstämmelse, inkonsekvens, felaktighet, ogiltighet och dataduplicering.

DQS innehåller följande funktioner för att lösa problem med datakvalitet.

  • Datarensning: ändring, borttagning eller berikning av data som är felaktiga eller ofullständiga, med hjälp av både datorstödda och interaktiva processer. Mer information finns i Datarens.

  • Matchning: identifiering av semantiska dubbletter i en regelbaserad process som gör att du kan avgöra vad som utgör en matchning och utföra deduplicering. Mer information finns i datamatchning.

  • Referensdatatjänster: verifiering av kvaliteten på dina data med hjälp av en referensdataproviders tjänster. Du kan använda referensdatatjänster från Microsoft Azure Marketplace för att rensa, verifiera, matcha och berika data. Mer information finns i Reference Data Services i DQS.

  • Profilering: analys av en datakälla för att ge insikt i datakvaliteten i varje steg i kunskapsidentifiering, domänhantering, matchning och datarensningsprocesser. Profilering är ett kraftfullt verktyg i en DQS-datakvalitetslösning. Du kan skapa en lösning för datakvalitet där profilering är lika viktigt som kunskapshantering, matchning eller datarensning. Mer information finns i Dataprofilering och Meddelanden i DQS.

  • Övervakning: spårning och bestämning av tillståndet för datakvalitetsaktiviteter. Med övervakning kan du kontrollera att din datakvalitetslösning gör vad den har utformats för. Mer information finns i DQS-administration.

  • Kunskapsbas: Data Quality Services är en kunskapsdriven lösning som analyserar data baserat på kunskap som du skapar med DQS. På så sätt kan du skapa processer för datakvalitet som kontinuerligt förbättrar kunskapen om dina data och på så sätt kontinuerligt förbättrar kvaliteten på dina data.

Följande bild visar DQS-processen:

DQS-processen

En Knowledge-Driven Lösning

DQS-kunskapsbasen är en lagringsplats med tre typer av kunskap: out-of-the-box-kunskap, kunskap som genereras av Data Quality Server och kunskap som genereras av användaren. Med DQS kan du lagra kunskap om dina data i kunskapsbasen, lägga till affärsregler och ändra kunskapen som du vill och sedan tillämpa den för att testa dataintegriteten och korrektheten. När du har skapat kunskapsbasen kan du kontinuerligt förbättra den och sedan återanvända den i flera processer för förbättring av datakvalitet.

Kunskap i en kunskapsbas identifierar potentiellt felaktiga data och föreslår ändringar i data. Den kan hitta datamatchningar så att du kan utföra datadeduplicering. Den kan jämföra källdata med molnbaserade referensdata som underhålls och garanteras av datakvalitetsleverantörer. Dataförvaltaren eller IT-teknikern verifierar både kunskapen i kunskapsbasen och de ändringar som ska göras i data och kör rensnings-, deduplicerings- och referensdatatjänsterna.

En kunskapsbas lagrar all kunskap som är relaterad till en viss typ av datakälla. Du kan till exempel underhålla en kunskapsbas för en kunddatabas och en annan kunskapsbas för en medarbetardatabas. Kunskap finns i en eller flera datadomäner, som var och en är en semantisk representation av en typ av data i ett datafält. En kunskapsbas för en kunddatabas kan ha domäner för företagsnamn, adresser, kontakter, kontaktinformation och så vidare. En domän innehåller en lista över betrodda värden, ogiltiga värden och felaktiga data. Domänkunskaper omfattar synonymassociationer, termrelationer, validerings- och affärsregler och matchande principer. Med den här kunskapen kan dataförvaltaren fatta ett välgrundat beslut om huruvida specifika instanser av värdena i en domän ska korrigeras.

Med DQS kan du utföra import- och exportåtgärder med en kunskapsbas. Du kan importera eller exportera domäner eller kunskapsbaser med hjälp av en DQS-fil. Du kan importera värden eller domäner från en Excel-fil. Du kan också importera värden som har hittats av en rensningsprocess baserat på kunskapsbasen tillbaka till en domän. Med de här åtgärderna kan du kontinuerligt förbättra en kunskapsbas och se till att kunskap som erhållits genom beslut och upptäckter dirigeras tillbaka till kunskapsbasen.

Den kunskapsdrivna DQS-lösningen använder två grundläggande steg för att rensa data:

  • En kunskapshanteringsprocess som bygger kunskapsbasen

  • Ett datakvalitetsprojekt som föreslår ändringar i källdata baserat på kunskapen i kunskapsbasen.

Mer information finns i DQS Knowledge Bases and Domains and Data Quality Projects (DQS).

DQS-komponenter

Datakvalitetstjänster består av datakvalitetsserver och datakvalitetsklient. Med de här komponenterna kan du utföra datakvalitetstjänster separat från andra SQL Server-åtgärder. Båda installeras inifrån installationsprogrammet för SQL Server.

Datakvalitetsserver implementeras som tre SQL Server-kataloger som du kan hantera och övervaka i SQL Server Management Studio (DQS_MAIN, DQS_PROJECTS och DQS_STAGING_DATA). DQS_MAIN innehåller DQS-lagrade procedurer, DQS-motorn och publicerade kunskapsbaser. DQS_PROJECTS innehåller data som krävs för kunskapsbashantering och DQS-projektaktiviteter. DQS_STAGING_DATA tillhandahåller en mellanliggande mellanlagringsdatabas där du kan kopiera dina källdata för att utföra DQS-åtgärder och sedan exportera dina bearbetade data.

Datakvalitetsklienten är ett fristående program som gör att du kan utföra kunskapshantering, datakvalitetsprojekt och administration i ett användargränssnitt. Programmet är utformat för både dataförvaltare och DQS-administratörer. Det är en fristående körbar fil som utför kunskapsidentifiering, domänhantering, matchande principskapande, datarensning, matchning, profilering, övervakning och serveradministration. Datakvalitetsklienten kan installeras och köras på samma dator som datakvalitetsservern eller via fjärranslutning på en separat dator. Många åtgärder i datakvalitetsklienten är guidedrivna för enkel användning.

Datakvalitetsfunktioner i Integration Services och Master Data Services

Datakvalitetsfunktioner som tillhandahålls av Data Quality Services är inbyggda i en komponent i SQL Server Integration Services (SSIS) och i funktioner i Master Data Services (MDS) så att du kan utföra datakvalitetsprocesser inom dessa tjänster.

DQS-rensningskomponent i Integration Services

Med DQS Cleansing-komponenten i Integration Services kan du utföra datarensning som en del av ett Integration Services-paket. När paketet körs körs datarensning som en batchfil. Det här är ett alternativ till att köra ett rensningsprojekt i datakvalitetsklientprogrammet. Du kan säkerställa kvaliteten på dina data automatiskt. Du behöver inte utföra de interaktiva stegen i ett datarensningsprojekt i datakvalitetsklientprogrammet. Du kan inkludera datarensningsprocessen i ett dataflöde som innehåller andra Integration Services-komponenter. Mer information finns i DQS Cleansing Transformation.

Datakvalitetsprocesser i Master Data Services

Funktionerna i Data Quality Services har integrerats i Master Data Services (MDS), så du kan utföra deduplicering på källdata och huvuddata i Microsoft SQL Server 2014 Master Data Services-tillägget för Microsoft Excel. Om du vill utföra matchning läser du in data som hanteras av MDS i ett Excel-kalkylblad, kombinerar dem med data som inte hanteras av MDS och utför sedan matchning i Excel. Komponenterna för datakvalitetsservern måste installeras med MDS. Mer information finns i Datakvalitetsmatchning i MDS-tillägget för Excel.