Udostępnij przez


Konfigurowanie zadania profilowania danych

Dotyczy:SQL Server SSIS Integration Runtime w ramach usługi Azure Data Factory

Przed przejrzeniem profilu danych źródłowych pierwszym krokiem jest skonfigurowanie i uruchomienie zadania profilowania danych. To zadanie należy utworzyć w pakiecie usług Integration Services. Aby skonfigurować zadanie profilowania danych, należy użyć Edytora zadań profilowania danych. Ten edytor umożliwia wybranie miejsca, w którym mają być wyświetlane profile i które profile mają być obliczane. Po skonfigurowaniu zadania uruchom pakiet w celu obliczenia profilów danych.

Wymagania i ograniczenia

Zadanie Profilowanie danych działa tylko z danymi przechowywanymi w programie SQL Server. Nie działa z źródłami danych innych firm ani opartymi na plikach.

Ponadto, aby uruchomić pakiet zawierający zadanie profilowania danych, należy użyć konta, które ma uprawnienia do odczytu/zapisu, w tym uprawnienia CREATE TABLE, w bazie danych tempdb.

Zadanie profilowania danych w pakiecie

Zadanie Profilowanie danych konfiguruje tylko profile i tworzy plik wyjściowy zawierający obliczone profile. Aby przejrzeć ten plik wyjściowy, należy użyć przeglądarki profilów danych, autonomicznego programu przeglądarki. Ponieważ dane wyjściowe muszą być wyświetlane oddzielnie, możesz użyć zadania Profilowanie danych w pakiecie, który nie zawiera żadnych innych zadań.

Nie trzeba jednak używać zadania profilowania danych jako jedynego zadania w pakiecie. Jeśli chcesz wykonać profilowanie danych w przepływie pracy lub przepływie danych bardziej złożonego pakietu, dostępne są następujące opcje:

  • Aby zaimplementować logikę warunkową opartą na pliku wyjściowym zadania, w przepływie sterowania pakietu umieść zadanie skryptu po zadaniu profilowania danych. Następnie możesz użyć tego zadania Skrypt, aby wykonać zapytanie dotyczące pliku wyjściowego.

  • Aby profilować dane w przepływie danych po załadowaniu i przekształceniu danych, musisz tymczasowo zapisać zmienione dane w tabeli programu SQL Server. Następnie możesz profilować zapisane dane.

Aby uzyskać więcej informacji, zobacz Dołączanie zadania profilowania danych w przepływie pracy pakietu.

Konfiguracja danych wyjściowych zadania

Gdy zadanie profilowania danych znajduje się w pakiecie, należy skonfigurować dane wyjściowe dla profilów, które będą obliczane przez zadanie. Aby skonfigurować dane wyjściowe dla profilów, użyj strony Ogólne w Edytorze zadań profilowania danych. Oprócz określenia miejsca docelowego dla danych wyjściowych strona Ogólne oferuje również możliwość szybkiego profilowania danych. Po wybraniu Szybkiego profilu zadanie profilowania danych profiluje tabelę lub widok, używając niektórych lub wszystkich domyślnych profili wraz z ich ustawieniami.

Aby uzyskać więcej informacji, zobacz Edytor zadań profilowania danych (strona ogólna) i Formularz szybkiego profilu pojedynczej tabeli (zadanie profilowania danych).

Ważne

Plik wyjściowy może zawierać poufne dane dotyczące bazy danych i danych, które zawiera baza danych. Aby uzyskać sugestie dotyczące sposobu zabezpieczania tego pliku, zobacz Access to Files Used by Packages (Dostęp do plików używanych przez pakiety).

Wybór i konfiguracja profilów do obliczenia

Po skonfigurowaniu pliku wyjściowego należy wybrać profile danych do obliczenia. Zadanie profilowania danych może obliczać osiem różnych profilów danych. Pięć z tych profilów analizuje poszczególne kolumny, a pozostałe trzy analizują wiele kolumn lub relacji między kolumnami i tabelami. W jednym zadaniu profilowania danych można obliczyć wiele profilów dla wielu kolumn lub kombinacji kolumn w wielu tabelach lub widokach.

W poniższej tabeli opisano raporty, które oblicza każdy z tych profilów, oraz typy danych, dla których profil jest prawidłowy.

Aby obliczyć Które pomagają zidentyfikować Użyj tego profilu
Wszystkie różne długości wartości ciągu w wybranej kolumnie i procent wierszy w tabeli, które reprezentuje każda długość. Wartości ciągów, które nie są prawidłowe— na przykład profilujesz kolumnę, która ma używać dwóch znaków dla kodów stanu w Stanach Zjednoczonych, ale odnajduje wartości, które są dłuższe niż dwa znaki. Rozkład długości kolumny —Prawidłowe dla kolumny z jednym z następujących typów danych znaków:

Char

nchar

varchar

nvarchar
Zestaw wyrażeń regularnych, które obejmują określony procent wartości w kolumnie ciągu.

Ponadto w celu znalezienia wyrażeń regularnych, które mogą być używane w przyszłości do weryfikowania nowych wartości
Wartości ciągów, które są nieprawidłowe lub nie mają poprawnego formatu:Na przykład profil wzorca kolumny z kodem pocztowym może generować następujące wyrażenia regularne: \d{5}-\d{4}, \d{5}, i \d{9}. Jeśli dane wyjściowe zawierają inne wyrażenia regularne, dane zawierają wartości nieprawidłowe lub w nieprawidłowym formacie. Profil wzorca kolumny —Dotyczy kolumny z jednym z następujących typów danych znakowych:

Char

nchar

varchar

nvarchar
Procent wartości null w wybranej kolumnie. Nieoczekiwanie wysoki współczynnik wartości null w kolumnieNa przykład profilujesz kolumnę, która ma zawierać kody pocztowe Stanów Zjednoczonych, ale odnajdziesz niedopuszczalnie wysoki odsetek brakujących kodów pocztowych. Współczynnik null kolumny —Prawidłowy dla kolumny, która ma jeden z następujących typów danych:

image

tekst

xml

Typy definiowane przez użytkownika

typy wariantów
Statystyki takie jak minimalna, maksymalna, średnia i odchylenie standardowe dla kolumn liczbowych oraz minimalna i maksymalna dla kolumn daty/godziny . Wartości liczbowe i daty, które nie są prawidłowe— na przykład profilujesz kolumnę dat historycznych, ale odkryjesz maksymalną datę w przyszłości. Profil statystyk kolumny —Prawidłowe dla kolumny z jednym z tych typów danych.

Typy danych liczbowych:

Typy całkowite (z wyjątkiem bitów)

pieniędzy

małe pieniądze

decimal

float

prawdziwy

numeryczny

Typy danych daty i godziny:

datetime

smalldatetime

Znacznik czasu

date

time

datetime2

datetimeoffset

Uwaga: w przypadku kolumny, która ma typ danych daty i godziny, profil oblicza wartość minimalną i maksymalną.
Wszystkie odrębne wartości w wybranej kolumnie i procent wierszy w tabeli, które reprezentuje każda wartość. Lub wartości reprezentujące więcej niż określony procent w tabeli. Niepoprawna liczba unikatowych wartości w kolumnie — na przykład profilujesz kolumnę zawierającą stany w Stanach Zjednoczonych, ale odkryjesz więcej niż 50 unikatowych wartości. Rozkład wartości kolumny —Prawidłowa dla kolumny z jednym z następujących typów danych.

Typy danych liczbowych:

Typy całkowite (z wyjątkiem bitów)

pieniędzy

małe pieniądze

decimal

float

prawdziwy

numeryczny

Typy danych znaków:

Char

nchar

varchar

nvarchar

Typy danych daty i godziny:

datetime

smalldatetime

Znacznik czasu

date

time

datetime2

datetimeoffset
Określa, czy kolumna lub zestaw kolumn jest kluczem, czy przybliżonym kluczem dla wybranej tabeli. Zduplikowane wartości w potencjalnej kolumnie klucza—Na przykład, profilujesz kolumny Name (Nazwa) i Address (Adres) w tabeli Customers (Klienci) i odkrywasz zduplikowane wartości, gdzie kombinacje nazw i adresów powinny być unikatowe. Klucz kandydata —Profil z wieloma kolumnami, który raportuje, czy kolumna czy zestaw kolumn jest odpowiedni do służyć jako klucz dla wybranej tabeli. Prawidłowe dla kolumn z jednym z tych typów danych.

Typy danych liczb całkowitych:

bit

tinyint

smallint

int

bigint

Typy danych znaków:

Char

nchar

varchar

nvarchar

Typy danych daty i godziny:

datetime

smalldatetime

Znacznik czasu

date

time

datetime2

datetimeoffset
Zakres, w jakim wartości w jednej kolumnie (kolumnie zależnej) zależą od wartości w innej kolumnie lub zestawie kolumn (kolumnie determinantnej). Wartości, które nie są prawidłowe w kolumnach zależnych—Na przykład profilujesz zależność między kolumną zawierającą kody pocztowe Stanów Zjednoczonych i kolumną zawierającą stany w Stanach Zjednoczonych. Ten sam kod pocztowy powinien zawsze mieć ten sam stan. Jednak profil odnajduje naruszenia zależności. Zależność funkcjonalna —Prawidłowe dla kolumn z jednym z tych typów danych.

Typy danych liczb całkowitych:

bit

tinyint

smallint

int

bigint

Typy danych znaków:

Char

nchar

varchar

nvarchar

Typy danych daty i godziny:

datetime

smalldatetime

Znacznik czasu

date

time

datetime2

datetimeoffset
Czy kolumna lub zestaw kolumn są odpowiednie jako klucz obcy między wybranymi tabelami.

Oznacza to, że ten profil zgłasza nakładające się wartości między dwiema kolumnami lub zestawami kolumn.
Wartości, które są nieprawidłowe—Na przykład analizujesz kolumnę ProductID w tabeli Sales. Profil odnajduje, że kolumna zawiera wartości, które nie zostały znalezione w kolumnie ProductID tabeli Products. Dołączanie wartości —Prawidłowe dla kolumn z jednym z następujących typów danych:

Typy danych liczb całkowitych:

bit

tinyint

smallint

int

bigint

Typy danych znaków:

Char

nchar

varchar

nvarchar

Typy danych daty i godziny:

datetime

smalldatetime

Znacznik czasu

date

time

datetime2

datetimeoffset

Aby wybrać profile do obliczenia, użyj strony Żądania profilu w Edytorze zadań profilowania danych. Aby uzyskać więcej informacji, zobacz Edytor zadań profilowania danych (strona żądań profilu).

Na stronie Żądanie profilu należy również określić źródło danych i skonfigurować profile danych. Podczas konfigurowania zadania zastanów się nad następującymi informacjami:

  • Aby uprościć konfigurację i ułatwić odnajdywanie właściwości nieznanych danych, można użyć symbolu wieloznakowego (*), zamiast nazwy pojedynczej kolumny. Jeśli używasz tego symbolu wieloznakowego, zadanie będzie profilować każdą kolumnę, która ma odpowiedni typ danych, co z kolei może spowolnić przetwarzanie.

  • Gdy wybrana tabela lub widok jest pusta, zadanie Profilowanie danych nie oblicza żadnych profilów.

  • Gdy wszystkie wartości w wybranej kolumnie mają wartość null, zadanie Profilowanie danych oblicza tylko profil współczynnika wartości null kolumny. Nie oblicza profilu dystrybucji długości kolumny, profilu wzorca kolumny, profilu statystyk kolumny lub profilu dystrybucji wartości kolumny dla pustej kolumny.

Każdy z dostępnych profilów danych ma własne opcje konfiguracji. Aby uzyskać więcej informacji na temat tych opcji, zobacz następujące tematy:

Wykonanie pakietu zawierającego zadanie profilowania danych

Po skonfigurowaniu zadania profilowania danych można uruchomić zadanie. Następnie zadanie oblicza profile danych i generuje te informacje w formacie XML do pliku lub zmiennej pakietu. Struktura tego kodu XML jest zgodna ze schematem DataProfile.xsd. Schemat można otworzyć w programie Microsoft Visual Studio lub innym edytorze schematów, w edytorze XML lub w edytorze tekstów, takim jak Notatnik. Ten schemat informacji o jakości danych może być przydatny w następujących celach:

  • Aby wymieniać informacje o jakości danych wewnątrz i pomiędzy organizacjami.

  • Tworzenie niestandardowych narzędzi, które współpracują z informacjami o jakości danych.

Docelowa przestrzeń nazw jest identyfikowana w schemacie jako https://schemas.microsoft.com/sqlserver/2008/DataDebugger/.

Następny krok

Podgląd profilu danych.