Datenprofilerstellungs-Task

Artikel
05/07/2013

Der Datenprofilerstellungs-Task berechnet verschiedene Profile, mit deren Hilfe Sie sich mit einer Datenquelle vertraut machen und Probleme bei den Daten identifizieren können, die behoben werden müssen.

Den Datenprofilerstellungs-Task können Sie innerhalb eines Integration Services-Pakets verwenden, um ein Profil der in SQL Server gespeicherten Daten zu erstellen und potenzielle Probleme mit der Datenqualität zu identifizieren.

Hinweis
In diesem Thema werden nur die Funktionen und Anforderungen des Datenprofilerstellungs-Tasks beschrieben. Eine exemplarische Vorgehensweise zur Verwendung des Datenprofilerstellungs-Tasks finden Sie im Abschnitt Datenprofilerstellungs-Task und -Viewer.

Anforderungen und Einschränkungen

Der Datenprofilerstellungs-Task funktioniert nur mit Daten, die in SQL Server gespeichert werden. Dieser Task funktioniert nicht mit Datenquellen von Drittanbietern oder dateibasierten Datenquellen.

Um ein Paket auszuführen, das den Datenprofilerstellungs-Task enthält, müssen Sie zudem ein Konto verwenden, das über Lese-/Schreibberechtigungen sowie CREATE TABLE-Berechtigungen für die tempdb-Datenbank verfügt.

Datenprofil-Viewer

Nachdem Sie Datenprofile mit dem Task berechnet und in einer Datei gespeichert haben, können Sie die Profilausgabe mit dem eigenständigen Datenprofil-Viewer überprüfen. Der Datenprofil-Viewer unterstützt außerdem Drilldownfunktionen, mit deren Hilfe Sie Probleme mit der Datenqualität verstehen können, die in der Profilausgabe identifiziert werden. Weitere Informationen finden Sie unter Datenprofil-Viewer.

Wichtig
Die Ausgabedatei enthält möglicherweise sensible Daten über die Datenbank und die Daten in der Datenbank. Vorschläge zur Verbesserung der Sicherheit dieser Datei finden Sie unter Zugriff auf Dateien, die von Paketen verwendet werden. Die Drilldownfunktion, die im Datenprofil-Viewer zur Verfügung steht, sendet Live-Abfragen an die ursprüngliche Datenquelle.

Die Ausgabedatei enthält möglicherweise sensible Daten über die Datenbank und die Daten in der Datenbank. Vorschläge zur Verbesserung der Sicherheit dieser Datei finden Sie unter Zugriff auf Dateien, die von Paketen verwendet werden.

Die Drilldownfunktion, die im Datenprofil-Viewer zur Verfügung steht, sendet Live-Abfragen an die ursprüngliche Datenquelle.

Verfügbare Profile

Der Datenprofilerstellungs-Task kann acht verschiedene Datenprofile berechnen. Fünf Profile analysieren einzelne Spalten und die restlichen drei analysieren mehrere Spalten oder Beziehungen zwischen Spalten und Tabellen.

Die folgenden fünf Profile analysieren einzelne Spalten.

Profile, die einzelne Spalten analysieren	Beschreibung
Verteilungsprofil für Spaltenlänge	Meldet alle eindeutigen Längen der Zeichenfolgenwerte in der ausgewählten Spalte sowie den Prozentsatz der Zeilen in der Tabelle, die jede Länge repräsentiert. Dieses Profil hilft Ihnen, Probleme mit den Daten zu identifizieren, z. B. Werte, die nicht gültig sind. Beispiel: Sie erstellen ein Profil einer Spalte mit den Codes der US-amerikanischen Bundesstaaten, die zwei Zeichen lang sein sollen, und entdecken Werte, die länger als zwei Zeichen sind.
Profil für Spalten-NULL-Verhältnis	Meldet den Prozentsatz der NULL-Werte in der ausgewählten Spalte. Dieses Profil hilft Ihnen, Probleme mit den Daten zu identifizieren, z. B. ein unerwartet hohes Verhältnis der NULL-Werte in einer Spalte. Beispiel: Sie erstellen ein Profil der Spalte für die Postleitzahl und entdecken einen unerwartet hohen Prozentsatz an fehlenden Codes.
Spaltenmusterprofil	Meldet einen Satz von regulären Ausdrücken, die den angegebenen Prozentsatz der Werte in einer Zeichenfolgenspalte abdecken. Dieses Profil hilft Ihnen, Probleme mit den Daten zu identifizieren, z. B. Zeichenfolgen, die nicht gültig sind. Dieses Profil kann außerdem reguläre Ausdrücke vorschlagen, die künftig zur Überprüfung neuer Werte verwendet werden können. Beispiel: Ein Musterprofil einer Spalte für den US-amerikanischen Zip Code kann folgende reguläre Ausdrücke erstellen: \d{5}-\d{4}, \d{5} und \d{9}. Wenn Sie andere reguläre Ausdrücke erhalten, enthalten Ihre Daten wahrscheinlich ungültige oder falsch formatierte Werte.
Spaltenstatistikprofil	Meldet Statistiken, wie minimale, maximale, durchschnittliche und standardmäßige Abweichung für numerische Spalten und den Mindest- und Höchstwert für datetime-Spalten. Dieses Profil hilft Ihnen, Probleme bei den Daten zu identifizieren, z. B. Datumswerte, die nicht gültig sind. Beispiel: Sie erstellen ein Profil einer Spalte mit historischen Daten und entdecken einen Maximalwert, der in der Zukunft liegt.
Verteilungsprofil für Spaltenwerte	Meldet alle eindeutigen Werte in der ausgewählten Spalte sowie den Prozentsatz der Zeilen in der Tabelle, die jeder Wert repräsentiert. Kann auch Werte melden, die mehr als einen angegebenen Prozentsatz der Zeilen in der Tabelle darstellen. Dieses Profil hilft Ihnen, Probleme mit den Daten zu identifizieren, z. B. eine falsche Anzahl eindeutiger Werte in einer Spalte. Beispiel: Sie erstellen ein Profil einer Spalte, die die US-amerikanischen Bundesstaaten enthalten soll, und entdecken mehr als 50 eindeutige Werte.

Die folgenden drei Profile analysieren einzelne Spalten oder Beziehungen zwischen Spalten und Tabellen.

Profile, die mehrere Spalten analysieren	Beschreibung
Kandidatenschlüsselprofil	Meldet, ob eine Spalte oder eine Gruppe von Spalten ein Schlüssel oder ein ungefährer Schlüssel für die ausgewählte Tabelle ist. Dieses Profil hilft Ihnen auch, Probleme bei den Daten zu identifizieren, z. B. doppelte Werte in einer potenziellen Schlüsselspalte.
Funktionales Abhängigkeitsprofil	Meldet, in welchem Maß die Werte in einer Spalte (die abhängige Spalte) von den Werten in einer Spalte oder einer Gruppe von Spalten (der determinanten Spalte) abhängig sind. Dieses Profil hilft Ihnen auch, Probleme mit den Daten zu identifizieren, z. B. Werte, die nicht gültig sind. Beispiel: Sie erstellen ein Profil der Abhängigkeit zwischen einer Spalte, die US-amerikanische Zip Codes enthält, und einer Spalte mit US-amerikanischen Bundesstaaten. Der gleiche Zip Code sollte immer denselben Bundesstaat aufweisen, doch das Profil entdeckt Verstöße gegen dieses Abhängigkeitsverhältnis.
Wertinklusionsprofil	Berechnet die Überschneidung in den Werten zwischen zwei Spalten oder Gruppen von Spalten. Dieses Profil kann bestimmen, ob eine Spalte oder eine Gruppe von Spalten geeignet ist, als Fremdschlüssel zwischen den ausgewählten Tabellen zu fungieren. Dieses Profil hilft Ihnen auch, Probleme bei den Daten zu identifizieren, z. B. Werte, die nicht gültig sind. Beispiel: Sie erstellen ein Profil der Spalte ProductID einer Verkaufstabelle und stellen fest, dass die Spalte Werte enthält, die nicht in der Spalte ProductID der Produkttabelle enthalten sind.

Kandidatenschlüsselprofil

Meldet, ob eine Spalte oder eine Gruppe von Spalten ein Schlüssel oder ein ungefährer Schlüssel für die ausgewählte Tabelle ist.

Dieses Profil hilft Ihnen auch, Probleme bei den Daten zu identifizieren, z. B. doppelte Werte in einer potenziellen Schlüsselspalte.

Funktionales Abhängigkeitsprofil

Meldet, in welchem Maß die Werte in einer Spalte (die abhängige Spalte) von den Werten in einer Spalte oder einer Gruppe von Spalten (der determinanten Spalte) abhängig sind.

Dieses Profil hilft Ihnen auch, Probleme mit den Daten zu identifizieren, z. B. Werte, die nicht gültig sind. Beispiel: Sie erstellen ein Profil der Abhängigkeit zwischen einer Spalte, die US-amerikanische Zip Codes enthält, und einer Spalte mit US-amerikanischen Bundesstaaten. Der gleiche Zip Code sollte immer denselben Bundesstaat aufweisen, doch das Profil entdeckt Verstöße gegen dieses Abhängigkeitsverhältnis.

Wertinklusionsprofil

Berechnet die Überschneidung in den Werten zwischen zwei Spalten oder Gruppen von Spalten. Dieses Profil kann bestimmen, ob eine Spalte oder eine Gruppe von Spalten geeignet ist, als Fremdschlüssel zwischen den ausgewählten Tabellen zu fungieren.

Dieses Profil hilft Ihnen auch, Probleme bei den Daten zu identifizieren, z. B. Werte, die nicht gültig sind. Beispiel: Sie erstellen ein Profil der Spalte ProductID einer Verkaufstabelle und stellen fest, dass die Spalte Werte enthält, die nicht in der Spalte ProductID der Produkttabelle enthalten sind.

Erforderliche Komponenten für ein gültiges Profil

Ein Profil ist nur gültig, wenn Sie Tabellen oder Spalten auswählen, die nicht leer sind, und die Spalten für das Profil gültige Datentypen enthalten.

Gültige Datentypen

Einige der verfügbaren Profile sind nur für bestimmte Datentypen sinnvoll. Ein Spaltenmusterprofil für eine Spalte zu berechnen, die numerische oder datetime-Werte enthält, ist beispielsweise nicht sinnvoll. Daher ist ein solches Profil nicht gültig.

Profil	Gültige Datentypen*
Spaltenstatistikprofil	Die Spalten müssen einen numerischen Typ aufweisen oder vom datetime-Typ sein (nicht vom mean- Typ und vom stddev-Typ für die datetime-Spalte).
Profil für Spalten-NULL-Verhältnis	Alle Spalten**
Verteilungsprofil für Spaltenwerte	Die Spalten müssen vom integer-Typ, vom char-Typ und vom datetime-Typ sein.
Verteilungsprofil für Spaltenlänge	Die Spalten müssen vom char-Typ sein.
Spaltenmusterprofil	Die Spalten müssen vom char-Typ sein.
Kandidatenschlüsselprofil	Die Spalten müssen vom integer-Typ, vom char-Typ und vom datetime-Typ sein.
Funktionales Abhängigkeitsprofil	Die Spalten müssen vom integer-Typ, vom char-Typ und vom datetime-Typ sein.
Inklusionsprofil	Die Spalten müssen vom integer-Typ, vom char-Typ und vom datetime-Typ sein.

* In der vorherigen Tabelle gültiger Datentypen umfassen der integer-Typ, der char-Typ, der datetime-Typ und der numeric-Typ die folgenden spezifischen Datentypen:

Ganzzahltypen umfassen den bit-Typ, den tinyint-Typ, den smallint-Typ, den int-Typ und den bigint-Typ.

Zeichentypen schließen den char-Typ, den nchar-Typ, den varchar-Typ und den nvarchar,-Typ ein, umfassen jedoch nicht den varchar(max)-Typ und den nvarchar(max)-Typ.

Datums- und Zeittypen schließen den datetime-Typ, den smalldatetime-Typ und den timestamp-Typ ein.

Die numerischen Typen umfassen die integer-Typen (mit Ausnahme des bit-Typs), den money-Typ, den smallmoney-Typ, den decimal-Typ, den float-Typ, den real-Typ und den numeric-Typ.

** Die Typen image, text, XML, udt und variant werden nur für andere Profile als das Profil für das NULL-Verhältnis der Spalte unterstützt.

Gültige Tabellen und Spalten

Wenn die Tabelle oder die Spalte leer ist, führt die Datenprofilerstellung die folgenden Aktionen aus:

Wenn die ausgewählte Tabelle oder die Sicht leer ist, berechnet der Datenprofilerstellungs-Task keine Profile.
Wenn alle Werte in der ausgewählten Spalte NULL sind, berechnet der Datenprofilerstellungs-Task nur das Profil für Spalten-NULL-Verhältnis. Der Task berechnet das Verteilungsprofil für Spaltenlänge, das Spaltenmusterprofil, das Spaltenstatistikprofil oder das Verteilungsprofil für Spaltenwerte nicht.

Funktion des Datenprofilerstellungs-Tasks

Der Datenprofilerstellungs-Task verfügt über die folgenden zweckmäßigen Konfigurationsoptionen:

Platzhalterspalten Beim Konfigurieren einer Profilanforderung akzeptiert der Task das Platzhalterzeichen (*) für einen Spaltennamen. Dies vereinfacht die Konfiguration und macht es leichter, die Eigenschaften unbekannter Daten zu ermitteln. Wenn der Task ausgeführt wird, erstellt er für jede Spalte, die über einen entsprechenden Datentyp verfügt, ein Profil.
Schnellprofil Sie können "Schnellprofil" auswählen, um den Task schnell zu konfigurieren. Ein Schnellprofil erstellt ein Profil einer Tabelle oder einer Sicht mit allen Standardprofilen und Standardeinstellungen.

Verfügbare benutzerdefinierte Meldungen für den Datenprofilerstellungs-Task

In der folgenden Tabelle werden die benutzerdefinierten Protokolleinträge für den Datenprofilerstellungs-Task aufgelistet. Weitere Informationen finden Sie unter Integration Services-Protokollierung (SSIS) und Benutzerdefinierte Meldungen für die Protokollierung.

Protokolleintrag	Beschreibung
DataProfilingTaskTrace	Stellt beschreibende Informationen zum Taskstatus zur Verfügung. Nachrichten beinhalten folgende Informationen: Start der Anforderungsverarbeitung Abfragestart Query End Beenden der Anforderungsverarbeitung

DataProfilingTaskTrace

Stellt beschreibende Informationen zum Taskstatus zur Verfügung. Nachrichten beinhalten folgende Informationen:

Start der Anforderungsverarbeitung
Abfragestart
Query End
Beenden der Anforderungsverarbeitung

Ausgabe und zugehöriges Schema

Der Datenprofilerstellungs-Task gibt die ausgewählten Profile im XML-Format aus, das dem Schema DataProfile.xsd entsprechend strukturiert ist. Sie können angeben, ob diese XML-Ausgabe in einer Datei oder einer Paketvariablen gespeichert wird. Sie können dieses Schema unter https://schemas.microsoft.com/sqlserver/2008/DataDebugger/ (möglicherweise nur in englischer Sprache) online anzeigen. Auf der Webseite können Sie eine lokale Kopie des Schemas speichern. Anschließend können Sie die lokale Kopie des Schemas in Microsoft Visual Studio oder einem anderen Schema-Editor, in einem XML-Editor oder einem Texteditor wie Notepad anzeigen.

Dieses Schema für Datenqualitätsinformationen kann für Folgendes nützlich sein:

Austauschen von Datenqualitätsinformationen innerhalb und außerhalb von Organisationen.
Erstellen von benutzerdefinierten Tools, die mit Datenqualitätsinformationen arbeiten.

Der Zielnamespace wird im Schema als https://schemas.microsoft.com/sqlserver/2008/DataDebugger/ identifiziert.

Ausgabe im bedingten Workflow eines Pakets

Die Komponenten der Datenprofilerstellung umfassen keine integrierten Funktionen zur Implementierung bedingter Logik im Workflow des Integration Services-Pakets basierend auf der Ausgabe des Datenprofilerstellungs-Tasks. Sie können diese Logik, mit minimalem Programmieraufwand, problemlos in einem Skripttask hinzufügen. Mit diesem Code wird eine Xpath-Abfrage der XML-Ausgabe durchgeführt und das Ergebnis in einer Paketvariablen gespeichert. Die Rangfolgeneinschränkungen, mit denen der Skripttask mit nachfolgenden Tasks verbunden wird, können einen Ausdruck verwenden, um den Workflow zu bestimmen. Der Skripttask stellt beispielsweise fest, dass der Prozentsatz der NULL-Werte in einer Spalte einen bestimmten Schwellenwert überschreitet. Wenn diese Bedingung wahr ist, sollten Sie das Paket unterbrechen und das Problem beheben, bevor Sie fortfahren.

Konfiguration des Datenprofilerstellungs-Tasks

Sie konfigurieren den Datenprofilerstellungs-Task mit dem Editor für den Datenprofilerstellungs-Task. Der Editor hat zwei Seiten:

Seite Allgemein
Auf der Seite Allgemein geben Sie die Ausgabedatei oder die Variable an. Sie können auch Schnellprofil auswählen, um den Task schnell zu konfigurieren und Profile mit den Standardeinstellungen zu berechnen. Weitere Informationen finden Sie unter Schnellprofilformular für eine einzelne Tabelle (Datenprofilerstellungs-Task).
Seite Profilanforderungen
Auf der Seite Profilanforderungen geben Sie die Datenquelle an und wählen und konfigurieren die Datenprofile, die Sie berechnen möchten. Klicken Sie auf eines der folgenden Themen, um weitere Informationen zu den verschiedenen Profilen zu erhalten, die Sie konfigurieren können:

Freigeben über