Data Profiling Task
Profilowanie danych zadań służy do obliczania różnych profilów, które ułatwiają zapoznanie się ze źródłem danych i identyfikowania problemów z danych, które muszą zostać ustalone.
Można użyć zadania Profilowanie danych wewnątrz Integration Services pakiet danych profilu, który jest przechowywany w SQL Server i zidentyfikować potencjalne problemy z jakością danych.
Uwaga
W tym temacie opisano tylko funkcje oraz wymagania Profilowanie dane zadanie.Przegląd używania Profilowanie dane zadanie znajduje się w sekcji, Profilowanie danych z danymi Profilowanie Podgląd i zadań.
![]() |
---|
Profilowanie danych zadania działa tylko w przypadku danych, które są przechowywane w SQL Server 2000 lub jego nowszych wersjach. To zadanie nie będzie działać ze źródłami danych innych producentów lub na podstawie pliku. Ponadto aby uruchomić pakiet zawierający Profilowanie dane zadanie, należy użyć konta, które ma uprawnienia odczytu i zapisu, w tym uprawnienia CREATE tabela, w bazie danych tempdb. |
Po użyciu tego zadania do obliczania danych profilów i zapisać je w pliku, autonomiczny Przeglądarka profilu danych służy do Obejrzyj wyniki profilu.Przeglądarka profilu danych obsługuje również drilldown możliwości, aby ułatwić zrozumienie zagadnienia jakości danych tha są określone w danych wyjściowych profilu.Aby uzyskać więcej informacji zobaczWyświetlanie profil wyjściowy w oknie Przeglądarka profilu danych.
![]() |
---|
Plik wyjściowy może zawierać dane poufne na temat używanej bazy danych i dane znajdujące się w bazie danych.Aby sugestie, jak zabezpieczyć ten plik Zobacz Controlling Access to Files Used by Packages. Funkcja drilldown, która jest dostępna w przeglądarce dane profilu, wysyła kwerendy żywych do oryginalnego urządzenie źródłowe danych. |
Opis dostępne profile
Zadanie Profilowanie danych można obliczyć osiem różnych danych profilów.Analizowanie pięć te profile poszczególnych kolumn i pozostałych trzech analizowanie wiele kolumn lub relacje między kolumn i tabel.
Następujące profile pięciu analizować poszczególnych kolumn.
Profile, które analizować poszczególnych kolumn |
Description |
---|---|
Kolumna Długość dystrybucji profilu |
Raporty różne długości ciąg wartości w zaznaczonej kolumna i wiersze w tabela każdy odcinek stanowi procent. Ten profil pomaga zidentyfikować problemy w danych, takie jak wartości, które nie są prawidłowe.Na przykład profilu kodów stanu Stanów Zjednoczonych, które powinny być dwa znaki i odkryć więcej niż dwóch znaków wartości kolumna. |
Profil współczynnik kolumna wartości null |
Raporty procent wartości null w wybranym kolumna. Ten profil pomaga zidentyfikować problemy w danych, takich jak nieoczekiwanie wysoki stopień wartości null kolumna.Na przykład profil kolumna Kod pocztowy/kod pocztowy i odkrywanie zbyt wysoki stopień Brak kodów. |
Wzorzec kolumna profilu |
Raporty zestaw wyrażeń regularnych, obejmujące określonej wartości procentowej wartości kolumna ciąg znaków. Ten profil pomaga zidentyfikować problemy w danych, takie jak ciąg znaków, które nie są prawidłowe.Ten profil może również zasugerować wyrażeń regularnych, które mogą być używane w przyszłości do sprawdzania poprawności nowych wartości.Na przykład profil deseń kolumna, kod pocztowy w Stanach Zjednoczonych może dawać wyrażeń regularnych: \d{5}-\d{4} \d{5}, a \d{9}. Jeśli widzisz innych wyrażeń regularnych, prawdopodobnie dane zawierają wartości, które nie są prawidłowe lub niepoprawny format. |
Statystyki kolumna profilu |
Raporty statystyk, takich jak minimum, maksimum, średnią i odchylenie standardowe dla kolumn numerycznych i minimalną i maksymalną wartość dla datetime kolumny. Ten profil pomaga zidentyfikować problemy w danych, takich jak daty, które nie są prawidłowe.Na przykład profil kolumna data historycznej i odnajdowanie maksymalnej data, która jest w przyszłości. |
Profil dystrybucji wartość kolumna |
Raporty o różnych wartości w wybranej kolumnie, a procent wierszy w tabela, która reprezentuje wszystkie wartości.Można również zgłosić wartości, które reprezentują więcej niż określony procent wierszy w tabela. Ten profil pomaga zidentyfikować problemy w danych, takich jak niepoprawną liczbę różnych wartości kolumna.Na przykład profilu kolumna, która powinna zawierać stanów w Stanach Zjednoczonych i odkryć więcej niż 50 różnych wartości. |
Następujące trzy profile analizować wiele kolumn lub relacje między kolumn i tabel.
Profile, które analizować wielu kolumn |
Description |
---|---|
Profil klucz kandydujący |
Raporty czy kolumna lub zestaw kolumn jest kluczem lub klucz przybliżone dla wybranej tabela. Ten profil pomaga zidentyfikować problemy w danych, takie jak powtarzające się wartości kolumna klucz potencjalnych. |
Profil zależność funkcjonalności |
Raporty w zakresie, których wartości w jednej kolumnie (kolumny zależnej) zależą od wartości z inną kolumną lub zestaw kolumn (kolumna wyznacznik). Ten profil pomaga zidentyfikować problemy w danych, takie jak wartości, które nie są prawidłowe.Na przykład profilu zależność między kolumna, która zawiera kody ZIP w Stanach Zjednoczonych i kolumna, która zawiera stanów w Stanach Zjednoczonych.Ten sam kod pocztowy zawsze powinien mieć ten sam stan, ale profil wykryje naruszenie tę zależność. |
Wartość dołączania profilów |
Oblicza nakładania się wartości między dwoma kolumnami lub zestawy kolumn.Ten profil można ustalić, czy kolumna lub zestaw kolumn jest służy jako klucz obcy między wybranymi tabelami. Ten profil pomaga zidentyfikować problemy w danych, takie jak wartości, które nie są prawidłowe.Na przykład profil kolumna IDproduktu tabela Sprzedaż i odkryć, że kolumna zawiera wartości, które nie znajdują się w kolumnie IDProduktu tabela Produkty. |
Wymagania wstępne dotyczące prawidłowego profilu
Profil jest nieprawidłowy, jeśli nie wybrano tabel i kolumn, które nie są puste, a dane w kolumnach typy danych, które są prawidłowe dla tego profilu.
Prawidłowe typy danych
Niektóre dostępne profile są istotne tylko w przypadku niektórych typów danych.Na przykład obliczanie Profil wzorca kolumn dla kolumna, która zawiera numeryczną lub datetime wartości nie ma sensu. W efekcie takiego profilu jest nieprawidłowy.
Profilu |
Prawidłowe typy danych * |
---|---|
ColumnStatisticsProfile |
Kolumny typu numerycznego lub datetime Typ (nie mean i stddev dla datetime kolumna) |
ColumnNullRatioProfile |
Wszystkie kolumny ** |
ColumnValueDistributionProfile |
Kolumny integer Typ, char Typ i datetime Typ |
ColumnLengthDistributionProfile |
Kolumny char Typ |
ColumnPatternProfile |
Kolumny char Typ |
CandidateKeyProfile |
Kolumny integer Typ, char Typ i datetime Typ |
FunctionalDependencyProfile |
Kolumny integer Typ, char Typ i datetime Typ |
InclusionProfile |
Kolumny integer Typ, char Typ i datetime Typ |
* W poprzedniej tabela typów danych integer, char, datetime, a numeric Typy obejmują następujące typy danych:
Liczba całkowita typy: bit, tinyint, smallint, int, a bigint.
Typy znaków: char, nchar, varchar, a nvarchar, ale nie dołączaj varchar(max) i nvarchar(max).
Data i godzina typy: datetime, smalldatetime, a timestamp.
Typy numeryczne: integer typy (z wyjątkiem bit), money, smallmoney, decimal, float, real, a numeric.
** image, text, xml, udt, a variant typy nie są obsługiwane dla profilów inne niż null profilu współczynnik kolumna.
Prawidłowe tabele i kolumny
Jeśli tabela lub kolumna jest pusta, Data Profilowanie wykonuje następujące akcje:
Przy zaznaczonej tabela lub widoku jest puste, zadanie Profilowanie danych nie obliczyć żaden profil.
Gdy wszystkie wartości w wybranej kolumnie wartość null, Profilowanie dane zadanie oblicza tylko profil null współczynnik kolumna.Zadanie nie obliczyć kolumna długość dystrybucji profilu, deseń kolumny profilu, profil Column Statistics lub kolumnę wartości dystrybucji profilu.
Funkcje danych Profilowanie zadań
Profilowanie dane zadanie ma te opcje konfiguracja wygodne:
Symbol wieloznaczny kolumn Podczas konfigurowania żądanie profilu zadania akceptuje (*) symboli wieloznacznych zamiast nazwy kolumna.To upraszcza konfiguracja i ułatwia odnajdowanie charakterystyki nieznane dane.Po uruchomieniu zadania, zadanie profile każdej kolumna, która ma typ danych.
Szybki Profilu Można wybrać szybki profil, aby szybko skonfigurować zadanie.Szybkie profil profile tabela lub widok, korzystając z domyślnych profilów i ustawienia domyślne.
Niestandardowe komunikaty rejestrowania dostępne zadania Profililng danych
Poniższa tabela zawiera listę wpisów dziennika niestandardowego zadania Profilowanie danych.Aby uzyskać więcej informacji zobacz Wykonania rejestrowania w pakietach i Niestandardowe komunikaty o rejestrowania.
Wpis dziennika |
Description |
---|---|
DataProfilingTaskTrace |
Zawiera opisowe informacje dotyczące stanu tego zadania.Wiadomości zawierają następujące informacje:
|
Opis danych wyjściowych i jego schemat
Profilowanie danych zadań Wyświetla wybrane profile w formacie XML, który ma strukturę zgodnie ze schematem DataProfile.xsd.Można określić, czy te dane wyjściowe XML są zapisywane w pliku lub w zmiennej typu pakiet.Można wyświetlić tego schematu online na https://schemas.Microsoft.com/SQLServer/2008/DataDebugger/.strona sieci Web można zapisać lokalną kopię schematu.Lokalna kopia schematu mogą następnie wyświetlać w programie Microsoft Visual Studio lub innego edytora schematu, w edytorze XML lub w edytorze tekstu, takim jak Notatnik.
Ten schemat dla informacji o jakości danych może być przydatne w przypadku:
Wymiana informacji o jakości danych w ramach i między organizacjami.
Służy do tworzenia niestandardowych narzędzi, pracować z informacjami o jakości danych.
miejsce docelowe obszar nazw jest identyfikowany w schemacie jako https://schemas.Microsoft.com/SQLServer/2008/DataDebugger/.
Przy użyciu danych wyjściowych w przepływie pracy warunkowe pakiet
Dane profilowania składniki nie zawierają wbudowane funkcje do zaimplementowania warunkowego logiki przebiegu pracy z Integration Services pakiet oparte na danych wyjściowych Profilowanie dane zadanie. Można jednak łatwo dodać tę logikę, przy minimalnej ilości programowania, zadania skryptu.Kod ten będzie wykonuje kwerendę XPath przed dane wyjściowe XML, a następnie zapisz wynik w zmiennej typu pakiet.Ograniczenia pierwszeństwo, połączyć się z zadań skryptów kolejnych zadań, które można użyć wyrażenie do określenia przepływu pracy.Na przykład zadania skryptu wykrywa, że wartości procentowej wartości null kolumna przekracza określony próg.Jeżeli ten warunek jest spełniony, może zaistnieć potrzeba przerwania pakiet i rozwiązać problem, przed kontynuowaniem.
Konfigurowanie danych Profilowanie zadań
Konfigurowanie zadań Profilowanie danych przy użyciu Edytor zadań profilowania danych.Edytor ma dwie strony:
Strona ogólnych
Na Ogólne strona, można określić plik wyjściowy lub zmiennej.Można także wybrać Szybkie profilu , aby skonfigurować zadania szybko obliczyć profile za pomocą ustawień domyślnych.Aby uzyskać więcej informacji zobaczFormularza profilu szybkiej pojedynczej tabela (dane Profilowanie zadań).Profil żądań strona
Na Żądania profilu strona, określ dane urządzenie źródłowe i wybrać i skonfigurować profile dane, które chcesz obliczyć.Aby uzyskać więcej informacji na temat różnych profilów, które można konfigurować zobacz następujące tematy:Opcje żądania profil klucz kandydujący (dane Profilowanie zadań)
Kolumna Długość profilu dystrybucji żądania opcje (dane Profilowanie zadań)
Opcje żądania profil współczynnik null kolumna (dane Profilowanie zadań)
Opcje żądania Profil wzorca kolumn (dane Profilowanie zadań)
Statystyki kolumna profil żądań opcje (dane Profilowanie zadań)
Opcje żądania dystrybucji profilu wartość kolumna (dane Profilowanie zadań)
Opcje żądania profil zależność funkcjonalne (dane Profilowanie zadań)
Opcje żądania dołączania profilów wartość (dane Profilowanie zadań)
|
Historia zmian
Microsoft Learning |
---|
|