Profilerstellung von Daten mit dem Datenprofilerstellungs-Task und dem Viewer
Der Datenprofilerstellungs-Task bietet Funktionen zur Datenprofilerstellung beim Extrahieren, Transformieren und Laden von Daten. Mit dem Datenprofilerstellungs-Task können Sie die folgenden Vorteile erzielen:
Sie können die Quelldaten effizienter analysieren.
Sie können die Quelldaten besser verstehen.
Sie können Datenqualitätsprobleme verhindern, bevor diese ins Data Warehouse eingeführt werden.
Wichtig |
---|
Der Datenprofilerstellungs-Task funktioniert nur mit Daten, die in SQL Server 2000 oder höheren Versionen gespeichert werden. Dieser Task funktioniert nicht mit Datenquellen von Drittanbietern oder dateibasierten Datenquellen. |
Was ist Datenprofilerstellung?
Datenqualität ist für jedes Geschäft wichtig. Da Unternehmen zusätzlich zu ihren Transaktionssystemen analytische Systeme und Business Intelligence-Systeme erstellen, hängt die Zuverlässigkeit von Key Performance Indicators (KPIs) und Data Mining-Vorhersageabfragen vollständig von der Gültigkeit der Daten ab, auf denen diese Systeme basieren. Obwohl die Bedeutung von gültigen Daten für Geschäftsentscheidungen ständig zunimmt, wird die Gewährleistung der Gültigkeit dieser Daten immer schwieriger. Daten von unterschiedlichen Systemen und Quellen und zahlreichen Benutzern strömen unaufhörlich in das Unternehmen.
Es kann schwierig sein, Metriken für die Datenqualität zu definieren, da diese spezifisch für die jeweilige Domäne oder Anwendung sind. Ein gebräuchliches Verfahren zur Definition von Datenqualität ist die Datenprofilerstellung.
Ein Datenprofil ist eine Auflistung von Gesamtstatistiken zu Daten, die Folgendes einschließen könnten:
Die Anzahl der Zeilen in der Customer-Tabelle.
Die Anzahl von unterschiedlichen Werten in der Spalte State.
Die Anzahl von NULL-Werten oder fehlenden Werten in der Spalte Zip.
Die Verteilung der Werte in der Spalte City.
Die Stärke der funktionalen Abhängigkeit der Spalte State von der Spalte Zip, d. h., der Staat sollte für einen bestimmten PLZ-Wert immer gleich sein.
Die Statistiken, die ein Datenprofil bietet, liefern Ihnen die erforderlichen Informationen, um effizient die Qualitätsprobleme zu minimieren, die durch die Verwendung der Quelldaten auftreten könnten.
Die Funktionsweise der Datenprofilerstellung in Integration Services
In Integration Services besteht der Prozess der Datenprofilerstellung aus den folgenden Schritten:
Schritt 1: Einrichten des Datenprofilerstellungs-Tasks
Der Datenprofilerstellungs-Task ist ein Task, den Sie verwenden können, um die Profile zu konfigurieren, die Sie berechnen möchten. Sie führen dann das Paket aus, das den Datenprofilerstellungs-Task enthält, um die Profile zu berechnen. Der Task speichert die Profilausgabe im XML-Format in einer Datei oder Paketvariablen.Weitere Informationen:Einrichten des Datenprofilerstellungs-Tasks
Schritt 2: Überprüfen der Profile, die der Datenprofilerstellungs-Task berechnet
Wenn Sie die vom Datenprofilerstellungs-Task berechneten Datenprofile anzeigen möchten, senden Sie die Ausgabe an eine Datei, und verwenden Sie dann den Datenprofil-Viewer. Dieser Viewer ist ein eigenständiges Hilfsprogramm, das die Profilausgabe im Zusammenfassungs- und Detailformat mit optionaler Drilldownfunktion anzeigt.Weitere Informationen:Anzeigen der Profilausgabe im Datenprofil-Viewer
Hinzufügen von Bedingungslogik zum Datenprofilerstellungs-Workflow
Der Datenprofilerstellungs-Task verfügt über keine integrierten Funktionen, die eine Verwendung von Bedingungslogik ermöglichen, um diesen Task auf der Grundlage der Profilausgabe mit Downstream-Tasks zu verbinden. Mit minimalem Programmieraufwand können Sie diese Logik jedoch problemlos einem Skripttask hinzufügen. Der Skripttask könnte beispielsweise eine XPath-Abfrage für die Ausgabedatei des Datenprofilerstellungs-Tasks ausführen. Durch die Abfrage könnte bestimmt werden, ob der Prozentwert von NULL-Werten in einer bestimmten Spalte einen bestimmten Schwellenwert überschreitet. Wenn der Prozentwert den Schwellenwert überschreitet, könnten Sie das Paket unterbrechen und das Problem in den Quelldaten vor dem Fortsetzen beheben. Weitere Informationen finden Sie unter Verwenden des Datenprofilerstellungs-Tasks im Paket-Workflow.
|