Udostępnij za pośrednictwem


Data Profiling Task

Profilowanie danych zadań służy do obliczania różnych profilów, które ułatwiają zapoznanie się ze źródłem danych i identyfikowania problemów z danych, które muszą zostać ustalone.

Można użyć zadania Profilowanie danych wewnątrz Integration Services pakiet danych profilu, który jest przechowywany w SQL Server i zidentyfikować potencjalne problemy z jakością danych.

Uwaga

W tym temacie opisano tylko funkcje oraz wymagania Profilowanie dane zadanie.Przegląd używania Profilowanie dane zadanie znajduje się w sekcji, Profilowanie danych z danymi Profilowanie Podgląd i zadań.

Important noteImportant Note:

Profilowanie danych zadania działa tylko w przypadku danych, które są przechowywane w SQL Server 2000 lub jego nowszych wersjach. To zadanie nie będzie działać ze źródłami danych innych producentów lub na podstawie pliku.

Ponadto aby uruchomić pakiet zawierający Profilowanie dane zadanie, należy użyć konta, które ma uprawnienia odczytu i zapisu, w tym uprawnienia CREATE tabela, w bazie danych tempdb.

Po użyciu tego zadania do obliczania danych profilów i zapisać je w pliku, autonomiczny Przeglądarka profilu danych służy do Obejrzyj wyniki profilu.Przeglądarka profilu danych obsługuje również drilldown możliwości, aby ułatwić zrozumienie zagadnienia jakości danych tha są określone w danych wyjściowych profilu.Aby uzyskać więcej informacji zobaczWyświetlanie profil wyjściowy w oknie Przeglądarka profilu danych.

Important noteImportant Note:

Plik wyjściowy może zawierać dane poufne na temat używanej bazy danych i dane znajdujące się w bazie danych.Aby sugestie, jak zabezpieczyć ten plik Zobacz Controlling Access to Files Used by Packages.

Funkcja drilldown, która jest dostępna w przeglądarce dane profilu, wysyła kwerendy żywych do oryginalnego urządzenie źródłowe danych.

Opis dostępne profile

Zadanie Profilowanie danych można obliczyć osiem różnych danych profilów.Analizowanie pięć te profile poszczególnych kolumn i pozostałych trzech analizowanie wiele kolumn lub relacje między kolumn i tabel.

Następujące profile pięciu analizować poszczególnych kolumn.

Profile, które analizować poszczególnych kolumn

Description

Kolumna Długość dystrybucji profilu

Raporty różne długości ciąg wartości w zaznaczonej kolumna i wiersze w tabela każdy odcinek stanowi procent.

Ten profil pomaga zidentyfikować problemy w danych, takie jak wartości, które nie są prawidłowe.Na przykład profilu kodów stanu Stanów Zjednoczonych, które powinny być dwa znaki i odkryć więcej niż dwóch znaków wartości kolumna.

Profil współczynnik kolumna wartości null

Raporty procent wartości null w wybranym kolumna.

Ten profil pomaga zidentyfikować problemy w danych, takich jak nieoczekiwanie wysoki stopień wartości null kolumna.Na przykład profil kolumna Kod pocztowy/kod pocztowy i odkrywanie zbyt wysoki stopień Brak kodów.

Wzorzec kolumna profilu

Raporty zestaw wyrażeń regularnych, obejmujące określonej wartości procentowej wartości kolumna ciąg znaków.

Ten profil pomaga zidentyfikować problemy w danych, takie jak ciąg znaków, które nie są prawidłowe.Ten profil może również zasugerować wyrażeń regularnych, które mogą być używane w przyszłości do sprawdzania poprawności nowych wartości.Na przykład profil deseń kolumna, kod pocztowy w Stanach Zjednoczonych może dawać wyrażeń regularnych: \d{5}-\d{4} \d{5}, a \d{9}. Jeśli widzisz innych wyrażeń regularnych, prawdopodobnie dane zawierają wartości, które nie są prawidłowe lub niepoprawny format.

Statystyki kolumna profilu

Raporty statystyk, takich jak minimum, maksimum, średnią i odchylenie standardowe dla kolumn numerycznych i minimalną i maksymalną wartość dla datetime kolumny.

Ten profil pomaga zidentyfikować problemy w danych, takich jak daty, które nie są prawidłowe.Na przykład profil kolumna data historycznej i odnajdowanie maksymalnej data, która jest w przyszłości.

Profil dystrybucji wartość kolumna

Raporty o różnych wartości w wybranej kolumnie, a procent wierszy w tabela, która reprezentuje wszystkie wartości.Można również zgłosić wartości, które reprezentują więcej niż określony procent wierszy w tabela.

Ten profil pomaga zidentyfikować problemy w danych, takich jak niepoprawną liczbę różnych wartości kolumna.Na przykład profilu kolumna, która powinna zawierać stanów w Stanach Zjednoczonych i odkryć więcej niż 50 różnych wartości.

Następujące trzy profile analizować wiele kolumn lub relacje między kolumn i tabel.

Profile, które analizować wielu kolumn

Description

Profil klucz kandydujący

Raporty czy kolumna lub zestaw kolumn jest kluczem lub klucz przybliżone dla wybranej tabela.

Ten profil pomaga zidentyfikować problemy w danych, takie jak powtarzające się wartości kolumna klucz potencjalnych.

Profil zależność funkcjonalności

Raporty w zakresie, których wartości w jednej kolumnie (kolumny zależnej) zależą od wartości z inną kolumną lub zestaw kolumn (kolumna wyznacznik).

Ten profil pomaga zidentyfikować problemy w danych, takie jak wartości, które nie są prawidłowe.Na przykład profilu zależność między kolumna, która zawiera kody ZIP w Stanach Zjednoczonych i kolumna, która zawiera stanów w Stanach Zjednoczonych.Ten sam kod pocztowy zawsze powinien mieć ten sam stan, ale profil wykryje naruszenie tę zależność.

Wartość dołączania profilów

Oblicza nakładania się wartości między dwoma kolumnami lub zestawy kolumn.Ten profil można ustalić, czy kolumna lub zestaw kolumn jest służy jako klucz obcy między wybranymi tabelami.

Ten profil pomaga zidentyfikować problemy w danych, takie jak wartości, które nie są prawidłowe.Na przykład profil kolumna IDproduktu tabela Sprzedaż i odkryć, że kolumna zawiera wartości, które nie znajdują się w kolumnie IDProduktu tabela Produkty.

Wymagania wstępne dotyczące prawidłowego profilu

Profil jest nieprawidłowy, jeśli nie wybrano tabel i kolumn, które nie są puste, a dane w kolumnach typy danych, które są prawidłowe dla tego profilu.

Prawidłowe typy danych

Niektóre dostępne profile są istotne tylko w przypadku niektórych typów danych.Na przykład obliczanie Profil wzorca kolumn dla kolumna, która zawiera numeryczną lub datetime wartości nie ma sensu. W efekcie takiego profilu jest nieprawidłowy.

Profilu

Prawidłowe typy danych *

ColumnStatisticsProfile

Kolumny typu numerycznego lub datetime Typ (nie mean i stddev dla datetime kolumna)

ColumnNullRatioProfile

Wszystkie kolumny **

ColumnValueDistributionProfile

Kolumny integer Typ, char Typ i datetime Typ

ColumnLengthDistributionProfile

Kolumny char Typ

ColumnPatternProfile

Kolumny char Typ

CandidateKeyProfile

Kolumny integer Typ, char Typ i datetime Typ

FunctionalDependencyProfile

Kolumny integer Typ, char Typ i datetime Typ

InclusionProfile

Kolumny integer Typ, char Typ i datetime Typ

* W poprzedniej tabela typów danych integer, char, datetime, a numeric Typy obejmują następujące typy danych:

     Liczba całkowita typy: bit, tinyint, smallint, int, a bigint.

     Typy znaków: char, nchar, varchar, a nvarchar, ale nie dołączaj varchar(max) i nvarchar(max).

     Data i godzina typy: datetime, smalldatetime, a timestamp.

     Typy numeryczne: integer typy (z wyjątkiem bit), money, smallmoney, decimal, float, real, a numeric.

** image, text, xml, udt, a variant typy nie są obsługiwane dla profilów inne niż null profilu współczynnik kolumna.

Prawidłowe tabele i kolumny

Jeśli tabela lub kolumna jest pusta, Data Profilowanie wykonuje następujące akcje:

  • Przy zaznaczonej tabela lub widoku jest puste, zadanie Profilowanie danych nie obliczyć żaden profil.

  • Gdy wszystkie wartości w wybranej kolumnie wartość null, Profilowanie dane zadanie oblicza tylko profil null współczynnik kolumna.Zadanie nie obliczyć kolumna długość dystrybucji profilu, deseń kolumny profilu, profil Column Statistics lub kolumnę wartości dystrybucji profilu.

Funkcje danych Profilowanie zadań

Profilowanie dane zadanie ma te opcje konfiguracja wygodne:

  • Symbol wieloznaczny kolumn   Podczas konfigurowania żądanie profilu zadania akceptuje (*) symboli wieloznacznych zamiast nazwy kolumna.To upraszcza konfiguracja i ułatwia odnajdowanie charakterystyki nieznane dane.Po uruchomieniu zadania, zadanie profile każdej kolumna, która ma typ danych.

  • Szybki Profilu   Można wybrać szybki profil, aby szybko skonfigurować zadanie.Szybkie profil profile tabela lub widok, korzystając z domyślnych profilów i ustawienia domyślne.

Niestandardowe komunikaty rejestrowania dostępne zadania Profililng danych

Poniższa tabela zawiera listę wpisów dziennika niestandardowego zadania Profilowanie danych.Aby uzyskać więcej informacji zobacz Wykonania rejestrowania w pakietach i Niestandardowe komunikaty o rejestrowania.

Wpis dziennika

Description

DataProfilingTaskTrace

Zawiera opisowe informacje dotyczące stanu tego zadania.Wiadomości zawierają następujące informacje:

  • Uruchom przetwarzanie żądania

  • Start kwerendy

  • Koniec kwerendy

  • Zakończenie korzystania z komputera żądania

Opis danych wyjściowych i jego schemat

Profilowanie danych zadań Wyświetla wybrane profile w formacie XML, który ma strukturę zgodnie ze schematem DataProfile.xsd.Można określić, czy te dane wyjściowe XML są zapisywane w pliku lub w zmiennej typu pakiet.Można wyświetlić tego schematu online na https://schemas.Microsoft.com/SQLServer/2008/DataDebugger/.strona sieci Web można zapisać lokalną kopię schematu.Lokalna kopia schematu mogą następnie wyświetlać w programie Microsoft Visual Studio lub innego edytora schematu, w edytorze XML lub w edytorze tekstu, takim jak Notatnik.

Ten schemat dla informacji o jakości danych może być przydatne w przypadku:

  • Wymiana informacji o jakości danych w ramach i między organizacjami.

  • Służy do tworzenia niestandardowych narzędzi, pracować z informacjami o jakości danych.

miejsce docelowe obszar nazw jest identyfikowany w schemacie jako https://schemas.Microsoft.com/SQLServer/2008/DataDebugger/.

Przy użyciu danych wyjściowych w przepływie pracy warunkowe pakiet

Dane profilowania składniki nie zawierają wbudowane funkcje do zaimplementowania warunkowego logiki przebiegu pracy z Integration Services pakiet oparte na danych wyjściowych Profilowanie dane zadanie. Można jednak łatwo dodać tę logikę, przy minimalnej ilości programowania, zadania skryptu.Kod ten będzie wykonuje kwerendę XPath przed dane wyjściowe XML, a następnie zapisz wynik w zmiennej typu pakiet.Ograniczenia pierwszeństwo, połączyć się z zadań skryptów kolejnych zadań, które można użyć wyrażenie do określenia przepływu pracy.Na przykład zadania skryptu wykrywa, że wartości procentowej wartości null kolumna przekracza określony próg.Jeżeli ten warunek jest spełniony, może zaistnieć potrzeba przerwania pakiet i rozwiązać problem, przed kontynuowaniem.

Konfigurowanie danych Profilowanie zadań

Konfigurowanie zadań Profilowanie danych przy użyciu Edytor zadań profilowania danych.Edytor ma dwie strony:

Integration Services icon (small) Konfiguracja w aktualizacji z usług integracja Services pobytu

Najnowsze pliki do pobrania, artykuły, próbki, i pliki wideo firmy Microsoft, jak również wybranego rozwiązania od Wspólnoty, odwiedź witrynę Integration Services strona w witrynie MSDN lub TechNet:

Automatycznego powiadomienie tych aktualizacji należy subskrybować źródła danych RSS, które jest dostępne strona.

Historia zmian

Microsoft Learning

  • Dodano uwagę dotyczącą sposobu możliwości drilldown wysyła kwerendy żywych ze źródłem danych.

  • Dodano informacje o wiadomości Rejestrowanie niestandardowe, które są dostępne.