Freigeben über


Einrichten von Datenprofilerstellungs-Tasks

Gilt für: SQL Server SSIS Integration Runtime in Azure Data Factory

Bevor Sie ein Profil der Quelldaten überprüfen können, müssen Sie zunächst den Datenprofilerstellungs-Task einrichten und ausführen. Sie erstellen diesen Task in einem Integration Services -Paket. Zum Konfigurieren des Datenprofilerstellungs-Tasks verwenden Sie den Editor für den Datenprofilerstellungs-Task. Mit diesem Editor können Sie auswählen, wo die Profile ausgegeben und welche Profile berechnet werden sollen. Nachdem Sie den Task eingerichtet haben, führen Sie das Paket aus, um die Datenprofile zu berechnen.

Anforderungen und Einschränkungen

Der Datenprofilerstellungs-Task funktioniert nur mit Daten, die in SQL Servergespeichert werden. Dieser Task funktioniert nicht mit Datenquellen von Drittanbietern oder dateibasierten Datenquellen.

Um das Paket auszuführen, das den Datenprofilerstellungs-Task enthält, müssen Sie zudem ein Konto verwenden, das über Lese-/Schreibberechtigungen sowie CREATE TABLE-Berechtigungen für die tempdb-Datenbank verfügt.

Datenprofilerstellungs-Task in einem Paket

Der Datenprofilerstellungs-Task konfiguriert nur die Profile und erstellt die Ausgabedatei, die die berechneten Profile enthält. Zum Überprüfen dieser Ausgabedatei verwenden Sie den Datenprofil-Viewer, ein eigenständiges Viewer-Programm. Da Sie die Ausgabedatei separat anzeigen müssen, können Sie den Datenprofilerstellungs-Task in einem Paket verwenden, das keine anderen Tasks enthält.

Der Datenprofilerstellungs-Task muss jedoch nicht als einziger Task in einem Paket verwendet werden. Wenn Sie die Datenprofilerstellung im Workflow oder im Datenfluss eines komplexeren Pakets ausführen möchten, stehen folgende Optionen zur Verfügung:

  • Zur Implementierung bedingter Logik, die auf der Ausgabedatei des Tasks basiert, nehmen Sie in der Ablaufsteuerung des Pakets nach dem Datenprofilerstellungs-Tasks einen Skripttask auf. Mit diesem Skripttask können Sie anschließend die Ausgabedatei abfragen.

  • Um ein Profil der Daten im Datenfluss zu erstellen, nachdem die Daten geladen und transformiert wurden, müssen Sie die geänderten Daten vorübergehend in einer SQL Server -Tabelle speichern. Anschließend können Sie ein Profil der gespeicherten Daten erstellen.

Weitere Informationen finden Sie unter Einschließen einer Datenprofilerstellungs-Task in den Paketworkflow.

Einrichten der Taskausgabe

Nachdem der Datenprofilerstellungs-Task in einem Paket aufgenommen wurde, müssen Sie die Ausgabe für die Profile einrichten, die vom Task berechnet werden. Zum Einrichten der Ausgabe für die Profile verwenden Sie die Seite Allgemein des Editors für den Datenprofilerstellungs-Task. Zusätzlich zur Angabe des Ziels für die Ausgabe bietet die Seite Allgemein auch die Möglichkeit zur Ausführung eines Schnellprofils der Daten an. Bei Auswahl von Schnellprofilerstellt der Datenprofilerstellungs-Task eine Tabelle oder eine Sicht mit einigen oder allen Standardprofilen und deren Standardeinstellungen.

Weitere Informationen finden Sie unter Editor für den Datenprofilerstellungs-Task (Seite "Allgemein") und Schnellprofilformular für eine einzelne Tabelle (Datenprofilerstellungs-Task).

Wichtig

Die Ausgabedatei enthält möglicherweise vertrauliche Daten über Ihre Datenbank und die darin enthaltenen Daten. Vorschläge zur Verbesserung der Sicherheit dieser Datei finden Sie unter Zugriff auf Dateien, die von Paketen verwendet werden.

Auswählen und Konfigurieren der zu berechnenden Profile

Nachdem Sie die Ausgabedatei eingerichtet haben, müssen Sie auswählen, welche Datenprofile berechnet werden sollen. Der Datenprofilerstellungs-Task kann acht verschiedene Datenprofile berechnen. Fünf Profile analysieren einzelne Spalten und die restlichen drei analysieren mehrere Spalten oder Beziehungen zwischen Spalten und Tabellen. In einem Datenprofilerstellungs-Task können Sie mehrere Profile für mehrere Spalten oder Kombinationen von Spalten in mehreren Tabellen oder Sichten berechnen.

Die folgende Tabelle beschreibt die Berichte, die von jedem dieser Profile berechnet werden, und die Datentypen, für die das Profil gültig ist.

Zum Berechnen Welche bei der Identifizierung helfen Verwenden Sie dieses Profil
Alle eindeutigen Längen der Zeichenfolgenwerte in der ausgewählten Spalte sowie der Prozentsatz der Zeilen in der Tabelle, den jede Länge darstellt. Ungültige Zeichenfolgenwerte: Sie erstellen beispielsweise ein Profil einer Spalte, die zwei Zeichen für die Codes der US-amerikanischen Bundesstaaten verwenden soll, stellen jedoch fest, dass diese Werte enthält, die länger sind als zwei Zeichen. Spaltenlängenverteilung: Gültig für eine Spalte mit einem der folgenden Zeichendatentypen:

char

nchar

varchar

nvarchar
Ein Satz von regulären Ausdrücken, die den angegebenen Prozentsatz der Werte in einer Zeichenfolgenspalte abdecken.

Auch zum Finden regulärer Ausdrücke, die künftig zur Überprüfung neuer Werte verwendet werden können
Ungültige oder falsch formatierte Zeichenfolgenwerte: Ein Musterprofil einer Spalte für die US-amerikanische Postleitzahl kann beispielsweise die folgenden regulären Ausdrücke erstellen: \d{5}-\d{4}, \d{5} und \d{9}. Wenn die Ausgabe andere reguläre Ausdrücke enthält, enthalten die Daten ungültige oder falsch formatierte Werte. Spaltenmusterprofil: Gültig für eine Spalte mit einem der folgenden Zeichendatentypen:

char

nchar

varchar

nvarchar
Der Prozentsatz der NULL-Werte in der ausgewählten Spalte. Ein unerwartet hohes Verhältnis von NULL-Werten in einer Spalte: Sie erstellen beispielsweise ein Profil einer Spalte, die US-amerikanische Postleitzahlen enthalten soll, stellen jedoch fest, dass ein unerwartet hoher Prozentsatz der Postleitzahlen fehlt. Spalten-NULL-Verhältnis: Gültig für eine Spalte mit einem der folgenden Datentypen:

image

text

xml

Benutzerdefinierte Typen

Variant-Typen
Statistiken wie minimale, maximale, durchschnittliche und standardmäßige Abweichung für numerische Spalten und den Mindest- und Höchstwert für datetime -Spalten. Ungültige numerische Werte und Datumsangaben: Sie erstellen beispielsweise ein Profil einer Spalte mit Verlaufsdatumswerten, stellen jedoch fest, dass ein maximales Datum in der Zukunft liegt. Spaltenstatistikprofil: Gültig für eine Spalte mit einem dieser Datentypen.

Numerische Datentypen:

Integer-Typen (außer bit

money

smallmoney

decimal

float

real

numeric

Datums- und Uhrzeitdatentypen:

datetime

smalldatetime

timestamp

date

time

datetime2

datetimeoffset

Hinweis: Für eine Spalte, die über ein Datum- und einen Zeitdatentyp verfügt, berechnet das Profil nur Minimum und Maximum.
Alle eindeutigen Werte in der ausgewählten Spalte sowie der Prozentsatz der Zeilen in der Tabelle, den jeder Wert darstellt. Oder die Werte, die mehr als einen angegebenen Prozentwert in der Tabelle darstellen. Eine falsche Anzahl von unterschiedlichen Werten in einer Spalte: Sie erstellen beispielsweise ein Profil einer Spalte mit den US-amerikanischen Bundesstaaten, stellen jedoch fest, dass diese mehr als 50 unterschiedliche Werte enthält. Spaltenwertverteilung: Gültig für eine Spalte mit einem der folgenden Datentypen.

Numerische Datentypen:

Integer-Typen (außer bit

money

smallmoney

decimal

float

real

numeric

Zeichendatentypen:

char

nchar

varchar

nvarchar

Datums- und Uhrzeitdatentypen:

datetime

smalldatetime

timestamp

date

time

datetime2

datetimeoffset
Ob eine Spalte oder eine Gruppe von Spalten ein Schlüssel oder ein ungefährer Schlüssel für die ausgewählte Tabelle ist. Doppelte Werte in einer potenziellen Schlüsselspalte: Sie erstellen beispielsweise ein Profil der Spalten für Name und Adresse in einer Customers-Tabelle, stellen jedoch doppelte Werte fest, obwohl die Kombinationen aus Name und Adresse einzigartig sein sollten. Kandidatenschlüssel: Ein Profil mit mehreren Spalten, das meldet, ob eine Spalte oder eine Gruppe von Spalten geeignet ist, als Schlüssel für die ausgewählte Tabelle zu fungieren. Gültig für Spalten mit einem dieser Datentypen.

Integer-Datentypen:

bit

tinyint

smallint

int

bigint

Zeichendatentypen:

char

nchar

varchar

nvarchar

Datums- und Uhrzeitdatentypen:

datetime

smalldatetime

timestamp

date

time

datetime2

datetimeoffset
Das Ausmaß, bis zu dem die Werte in einer Spalte (die abhängige Spalte) von den Werten in einer anderen Spalte oder einer Gruppe von Spalten (die determinante Spalte) abhängig sind. Werte, die in abhängigen Spalten ungültig sind: Sie erstellen beispielsweise ein Profil der Abhängigkeit zwischen einer Spalte mit US-amerikanischen Postleitzahlen und einer Spalte mit US-amerikanischen Bundesstaaten. Einer Postleitzahl sollte immer derselbe Bundesstaat zugeordnet sein. Das Profil stellt jedoch Abhängigkeitsverletzungen fest. Funktionale Abhängigkeit: Gültig für Spalten mit einem dieser Datentypen.

Integer-Datentypen:

bit

tinyint

smallint

int

bigint

Zeichendatentypen:

char

nchar

varchar

nvarchar

Datums- und Uhrzeitdatentypen:

datetime

smalldatetime

timestamp

date

time

datetime2

datetimeoffset
Ob eine Spalte oder eine Gruppe von Spalten geeignet ist, um als Fremdschlüssel zwischen den ausgewählten Tabellen zu fungieren.

Das bedeutet, dass dieses Profil die Überschneidung in den Werten zwischen zwei Spalten oder Gruppen von Spalten meldet.
Ungültige Werte: Sie erstellen beispielsweise ein Profil der Spalte ProductID einer Verkaufstabelle. Das Profil erkennt, dass die Spalte Werte enthält, die nicht in der Spalte ProductID der Products-Tabelle enthalten sind. Werteinschluss: Gültig für Spalten mit einem dieser Datentypen:

Integer-Datentypen:

bit

tinyint

smallint

int

bigint

Zeichendatentypen:

char

nchar

varchar

nvarchar

Datums- und Uhrzeitdatentypen:

datetime

smalldatetime

timestamp

date

time

datetime2

datetimeoffset

Zur Auswahl der zu berechnenden Profile verwenden Sie die Seite Profilanforderungen im Editor für den Datenprofilerstellungs-Task. Weitere Informationen finden Sie unter Editor für den Datenprofilerstellungs-Task (Profile Requests Page).

Auf der Seite Profilanforderungen geben Sie auch die Datenquelle an und konfigurieren die Datenprofile. Beachten Sie beim Konfigurieren des Tasks die folgenden Informationen:

  • Sie können anstelle eines Spaltennamens den Platzhalter (*) verwenden, um die Konfiguration zu vereinfachen und Eigenschaften von unbekannten Daten leichter zu ermitteln. Wenn Sie diesen Platzhalter verwenden, erstellt der Task ein Profil von jeder Spalte, die über einen entsprechenden Datentyp verfügt. Dies kann die Verarbeitungsgeschwindigkeit beeinträchtigen.

  • Wenn die ausgewählte Tabelle oder die Sicht leer ist, berechnet der Datenprofilerstellungs-Task keine Profile.

  • Wenn alle Werte in der ausgewählten Spalte NULL sind, berechnet der Datenprofilerstellungs-Task nur das Profil für Spalten-NULL-Verhältnis. Der Task berechnet nicht das Verteilungsprofil für Spaltenlänge, das Spaltenmusterprofil, das Spaltenstatistikprofil oder das Verteilungsprofil für Spaltenwerte für die leere Spalte.

Jedes verfügbare Datenprofil hat eigene Konfigurationsoptionen. Weitere Informationen zu diesen Optionen finden Sie in den folgenden Themen:

Ausführen des Pakets, das den Datenprofilerstellungs-Task enthält

Nachdem Sie den Datenprofilerstellungs-Task eingerichtet haben, können Sie den Task ausführen. Der Task berechnet dann die Datenprofile und gibt diese Informationen im XML-Format in einer Datei oder einer Paketvariablen aus. Die Struktur dieses XML-Formats folgt dem DataProfile.xsd-Schema. Sie können das Schema in Microsoft Visual Studio oder einem anderen Schema-Editor, in einem XML-Editor oder einem Text-Editor wie Notepad anzeigen. Dieses Schema für Datenqualitätsinformationen kann für folgende Zwecke nützlich sein:

  • Zum Austauschen von Datenqualitätsinformationen innerhalb und außerhalb von Organisationen.

  • Zum Erstellen von benutzerdefinierten Tools, die mit Datenqualitätsinformationen arbeiten.

Der Zielnamespace wird im Schema als https://schemas.microsoft.com/sqlserver/2008/DataDebugger/ identifiziert.

Nächster Schritt

Datenprofil-Viewer.