Taak voor gegevensprofilering
van toepassing op:SQL Server
SSIS Integration Runtime in Azure Data Factory
Met de taak Gegevensprofilering worden verschillende profielen berekend waarmee u vertrouwd raakt met een gegevensbron en problemen in de gegevens kunt identificeren die moeten worden opgelost.
U kunt de taak Gegevensprofilering in een Integration Services-pakket gebruiken om gegevens te profileren die zijn opgeslagen in SQL Server en om potentiële problemen met gegevenskwaliteit te identificeren.
Notitie
In dit onderwerp worden alleen de functies en vereisten van de taak Gegevensprofilering beschreven. Zie de sectie Gegevensprofileringstaak en Viewervoor een toelichting op hoe de taak Gegevensprofilering te gebruiken.
Vereisten en beperkingen
De taak Gegevensprofilering werkt alleen met gegevens die zijn opgeslagen in SQL Server. Deze taak werkt niet met gegevensbronnen van derden of bestanden.
Als u bovendien een pakket wilt uitvoeren dat de taak Gegevensprofilering bevat, moet u een account gebruiken met lees-/schrijfmachtigingen, waaronder CREATE TABLE-machtigingen, voor de tempdb-database.
Gegevensprofiel Viewer
Nadat u de taak hebt gebruikt om gegevensprofielen te berekenen en op te slaan in een bestand, kunt u de zelfstandige gegevensprofielviewer gebruiken om de profieluitvoer te controleren. De Gegevensprofielviewer biedt ook ondersteuning voor inzoommogelijkheden om inzicht te krijgen in problemen met de gegevenskwaliteit die worden geïdentificeerd in de profieluitvoer. Zie Data Profile Viewervoor meer informatie.
Belangrijk
Het uitvoerbestand bevat mogelijk gevoelige gegevens over uw database en de gegevens die de database bevat. Zie Access to Files Used by Packagesvoor suggesties voor het beveiligen van dit bestand.
De inzoomfunctie, die beschikbaar is in de Gegevensprofielviewer, verzendt livequery's naar de oorspronkelijke gegevensbron.
Beschikbare profielen
De taak voor gegevensprofilering kan acht verschillende gegevensprofielen berekenen. Vijf van deze profielen analyseren afzonderlijke kolommen en de resterende drie analyseren meerdere kolommen of relaties tussen kolommen en tabellen.
Met de volgende vijf profielen worden afzonderlijke kolommen geanalyseerd.
Profielen die afzonderlijke kolommen analyseren | Beschrijving |
---|---|
Kolomlengteverdelingsprofiel | Rapporteert alle afzonderlijke lengten van tekenreekswaarden in de geselecteerde kolom en het percentage rijen in de tabel die elke lengte vertegenwoordigt. Met dit profiel kunt u problemen in uw gegevens identificeren, zoals waarden die niet geldig zijn. U profileert bijvoorbeeld een kolom met statencodes in de Verenigde Staten die twee tekens moeten bevatten en detecteer waarden die langer zijn dan twee tekens. |
Kolom Nullo-Verhoudingsprofiel | Hiermee wordt het percentage null-waarden in de geselecteerde kolom gerapporteerd. Dit profiel helpt u bij het identificeren van problemen in uw gegevens, zoals een onverwacht hoge verhouding van null-waarden in een kolom. U profileert bijvoorbeeld een kolom met postcodes en ontdekt een onaanvaardbaar hoog percentage ontbrekende codes. |
Kolompatroonprofiel | Rapporteert een set reguliere expressies die betrekking hebben op het opgegeven percentage waarden in een tekenreekskolom. Dit profiel helpt u bij het identificeren van problemen in uw gegevens, zoals een tekenreeks die niet geldig is. Dit profiel kan ook reguliere expressies voorstellen die in de toekomst kunnen worden gebruikt om nieuwe waarden te valideren. Een patroonprofiel van een kolom Postcode in de Verenigde Staten kan bijvoorbeeld de reguliere expressies produceren: \d{5}-\d{4}, \d{5}en \d{9}. Als u andere reguliere expressies ziet, bevatten uw gegevens waarschijnlijk waarden die ongeldig of in een onjuiste indeling zijn. |
Profiel voor kolomstatistieken | Rapporteert statistieken, zoals minimum, maximum, gemiddelde en standaarddeviatie voor numerieke kolommen, en minimum en maximum voor datum/tijd kolommen. Met dit profiel kunt u problemen in uw gegevens identificeren, zoals datums die niet geldig zijn. U kunt bijvoorbeeld een kolom met historische datums profileeren en een maximumdatum ontdekken die zich in de toekomst bevindt. |
Distributieprofiel voor kolomwaarden | Rapporteert alle afzonderlijke waarden in de geselecteerde kolom en het percentage rijen in de tabel die elke waarde vertegenwoordigt. Kan ook waarden rapporteren die meer dan een opgegeven percentage rijen in de tabel vertegenwoordigen. Met dit profiel kunt u problemen in uw gegevens identificeren, zoals een onjuist aantal afzonderlijke waarden in een kolom. U profileert bijvoorbeeld een kolom die staten in de Verenigde Staten moet bevatten en detecteert meer dan 50 afzonderlijke waarden. |
Met de volgende drie profielen worden meerdere kolommen of relaties tussen kolommen en tabellen geanalyseerd.
Profielen die meerdere kolommen analyseren | Beschrijving |
---|---|
Kandidaatsleutelprofiel | Rapporteert of een kolom of een set van kolommen een sleutel of een geschatte sleutel is voor de geselecteerde tabel. Dit profiel helpt u ook bij het identificeren van problemen in uw gegevens, zoals dubbele waarden in een potentiële sleutelkolom. |
Functioneel afhankelijkheidsprofiel | Rapporteert de mate waarin de waarden in één kolom (de afhankelijke kolom) afhankelijk zijn van de waarden in een andere kolom of set kolommen (de determinante kolom). Dit profiel helpt u ook bij het identificeren van problemen in uw gegevens, zoals waarden die niet geldig zijn. U profileert bijvoorbeeld de afhankelijkheid tussen een kolom die postcodes van de Verenigde Staten bevat en een kolom die staten in de Verenigde Staten bevat. Dezelfde postcode moet altijd dezelfde status hebben, maar het profiel detecteert schendingen van deze afhankelijkheid. |
Waarde-inclusieprofiel | Berekent de overlapping in de waarden tussen twee kolommen of sets van kolommen. Dit profiel kan bepalen of een kolom of set kolommen geschikt is om als refererende sleutel tussen de geselecteerde tabellen te fungeren. Dit profiel helpt u ook bij het identificeren van problemen in uw gegevens, zoals waarden die niet geldig zijn. U profileert bijvoorbeeld de kolom Product-id van een tabel Verkoop en ontdekt dat de kolom waarden bevat die niet worden gevonden in de kolom Product-id van de tabel Producten. |
Vereisten voor een geldig profiel
Een profiel is niet geldig, tenzij u tabellen en kolommen selecteert die niet leeg zijn en de kolommen gegevenstypen bevatten die geldig zijn voor het profiel.
Geldige gegevenstypen
Sommige beschikbare profielen zijn alleen zinvol voor bepaalde gegevenstypen. Het berekenen van een kolompatroonprofiel voor een kolom die numerieke of datum/tijd- waarden bevat, is bijvoorbeeld niet zinvol. Daarom is een dergelijk profiel niet geldig.
Profiel | Geldige gegevenstypen* |
---|---|
Kolomstatistiekenprofiel | Kolommen van numeriek type of datum/tijd type (geen gemiddelde en standaardafwijking voor datum/tijd kolom) |
ColumnNullRatioProfile | Alle kolommen** |
Profiel voor Kolomwaardeverdeling | Kolommen van type geheel getal , type karakter en type datum/tijd |
KolomLengteDistributieProfiel | Kolommen van teken van het type |
KolomPatroonProfiel | Kolommen van type teken |
CandidateKeyProfile | Kolommen van type geheel getal, tekentype en type datum/tijd |
FunctioneleAfhankelijkheidsprofiel | Kolommen van type geheel getal, tekentype en type datum/tijd |
InclusionProfile | Kolommen van geheel getal type , tekentype , en datum/tijd type . |
* In de vorige tabel met geldige gegevenstypen bevatten het integer, karakter, datum/tijden numeriek de volgende specifieke gegevenstypen:
Gegevenstypen voor gehele getallen zijn bit, tinyint, smallint, inten bigint.
Tekentypen zijn teken, nchar, varcharen nvarchar,, maar bevatten geen varchar(max) en nvarchar(max).
Datum- en tijdtypen omvatten datum/tijd-, smalldatetime-en tijdstempel.
Numerieke typen zijn integertypen (behalve bit), geldtypen, kleinegeldtypen, decimale, float, reële getaltypenen numerieke.
** afbeelding, tekst, XML-, udten variant typen worden niet ondersteund voor andere profielen dan het kolom-null-verhoudingsprofiel.
Geldige tabellen en kolommen
Als de tabel of kolom leeg is, voert de gegevensprofilering de volgende acties uit:
Wanneer de geselecteerde tabel of weergave leeg is, worden met de taak Gegevensprofilering geen profielen berekend.
Wanneer alle waarden in de geselecteerde kolom null zijn, berekent de taak Gegevensprofilering alleen het kolom-null-verhoudingsprofiel. De taak berekent het kolomlengtedistributieprofiel, kolompatroonprofiel, kolomstatistiekenprofiel of kolomwaardedistributieprofiel niet.
Functies van de taak voor gegevensprofilering
De taak Gegevensprofilering heeft deze handige configuratieopties:
jokertekenkolommen Wanneer u een profielaanvraag configureert, accepteert de taak de (*) jokerteken in plaats van een kolomnaam. Dit vereenvoudigt de configuratie en maakt het gemakkelijker om de kenmerken van onbekende gegevens te ontdekken. Wanneer de taak wordt uitgevoerd, wordt elke kolom met een geschikt gegevenstype geprofielen.
Snelle profiel U kunt Snelprofiel selecteren om de taak snel te configureren. Een snelprofiel profileert een tabel of weergave met behulp van alle standaardprofielen en standaardinstellingen.
Aangepaste logboekberichten die beschikbaar zijn voor de taak gegevensprofilering
De volgende tabel bevat de aangepaste logboekvermeldingen voor de taak Gegevensprofilering. Zie Integration Services (SSIS) Loggingvoor meer informatie.
Logboekvermelding | Beschrijving |
---|---|
DataProfilingTaskTrace | Bevat beschrijvende informatie over de status van de taak. Berichten bevatten de volgende informatie: Begin met het verwerken van aanvragen Query starten Einde van query Computeraanvraag voltooien |
Uitvoer en het bijbehorende schema
De taak Gegevensprofilering voert de geselecteerde profielen uit in XML die is gestructureerd volgens het DataProfile.xsd-schema. U kunt opgeven of deze XML-uitvoer wordt opgeslagen in een bestand of in een pakketvariabele. U kunt dit schema online bekijken op https://schemas.microsoft.com/sqlserver/2008/DataDebugger/. Op de webpagina kunt u een lokale kopie van het schema opslaan. Vervolgens kunt u de lokale kopie van het schema bekijken in Microsoft Visual Studio of een andere schema-editor, in een XML-editor of in een teksteditor zoals Kladblok.
Dit schema voor gegevenskwaliteitsinformatie kan nuttig zijn voor:
Gegevenskwaliteitsinformatie uitwisselen binnen en tussen organisaties.
Aangepaste hulpprogramma's bouwen die werken met gegevenskwaliteitsinformatie.
De doelnaamruimte wordt in het schema geïdentificeerd als https://schemas.microsoft.com/sqlserver/2008/DataDebugger/.
Uitvoer in de voorwaardelijke workflow van een pakket
De onderdelen voor gegevensprofilering bevatten geen ingebouwde functionaliteit voor het implementeren van voorwaardelijke logica in de werkstroom van het Integration Services-pakket op basis van de uitvoer van de taak Gegevensprofilering. U kunt deze logica echter eenvoudig toevoegen, met een minimale hoeveelheid programmering, in een scripttaak. Met deze code wordt een XPath-query uitgevoerd op basis van de XML-uitvoer en wordt het resultaat vervolgens opgeslagen in een pakketvariabele. Prioriteitsbeperkingen die de scripttaak verbinden met volgende taken, kunnen een expressie gebruiken om de werkstroom te bepalen. De scripttaak detecteert bijvoorbeeld dat het percentage null-waarden in een kolom een bepaalde drempelwaarde overschrijdt. Als deze voorwaarde waar is, wilt u het pakket mogelijk onderbreken en het probleem oplossen voordat u doorgaat.
Configuratie van de taak voor gegevensprofilering
U configureert de taak Gegevensprofilering met behulp van de Taakeditor voor gegevensprofilering. De editor heeft twee pagina's:
Algemene Pagina
Op de pagina Algemeen geeft u het uitvoerbestand of de variabele op. U kunt ook Snelle Profiel selecteren om de taak snel te configureren om profielen te berekenen met behulp van de standaardinstellingen. Voor meer informatie, zie Snelle profielformulier voor enkele tabel (taak voor gegevensprofilering).
Pagina met profielaanvragen
Op de pagina Profielaanvragen geeft u de gegevensbron op en selecteert en configureert u de gegevensprofielen die u wilt berekenen. Zie de volgende onderwerpen voor meer informatie over de verschillende profielen die u kunt configureren:
Aanvraagopties voor kandidaatsleutelprofiel (gegevensprofileringstaak)
Opties voor aanvraag van kolomlengtedistributieprofiel (taak voor gegevensprofilering)
Opties voor aanvraag null-waarde ratio profiel van kolom (taak gegevensprofilering)
Aanvraagopties voor profielopties voor kolompatronen (gegevensprofileringstaak)
Aanvraagopties voor profielen van kolomstatistieken (taak voor gegevensprofilering)
Verzoekopties voor kolomwaardeverdelingsprofielen (gegevensprofileringstaak)
Verzoekopties voor functionele afhankelijkheidsprofielen (taak voor gegevensprofilering)
Aanvraagopties voor waarde-insluitingsprofiel (gegevensprofileringstaak)