Zadanie profilowania danych

Dotyczy:SQL Server SSIS Integration Runtime w usłudze Azure Data Factory

Zadanie profilowania danych oblicza różne profile, które ułatwiają zapoznanie się ze źródłem danych i identyfikowanie problemów w danych, które należy naprawić.

Za pomocą zadania Profilowanie danych wewnątrz pakietu usług Integration Services można profilować dane przechowywane w programie SQL Server i identyfikować potencjalne problemy z jakością danych.

Notatka

W tym temacie opisano tylko funkcje i wymagania zadania profilowania danych. Aby zapoznać się z przewodnikiem dotyczącym korzystania z zadania profilowania danych, zobacz sekcję Zadanie profilowania danych i Przeglądarka.

Wymagania i ograniczenia

Zadanie Profilowanie danych działa tylko z danymi przechowywanymi w programie SQL Server. To zadanie nie działa z źródłami danych innych firm ani opartymi na plikach.

Ponadto, aby uruchomić pakiet zawierający zadanie profilowania danych, należy użyć konta, które ma uprawnienia do odczytu/zapisu, w tym uprawnienia CREATE TABLE, w bazie danych tempdb.

Podgląd profilera danych

Po użyciu zadania do obliczania profilów danych i zapisywania ich w pliku możesz użyć autonomicznej przeglądarki profilów danych, aby przejrzeć dane wyjściowe profilu. Przeglądarka profilów danych obsługuje również funkcję przeglądania szczegółowego, aby ułatwić zrozumienie problemów z jakością danych, które są identyfikowane w danych wyjściowych profilu. Aby uzyskać więcej informacji, zobacz Podgląd profilu danych.

Ważny

Plik wyjściowy może zawierać poufne dane dotyczące bazy danych i danych, które zawiera baza danych. Aby uzyskać sugestie dotyczące sposobu zwiększenia bezpieczeństwa tego pliku, zobacz Dostęp do Plików Używanych przez Pakiety.

Funkcja szczegółowego przeglądania dostępna w Podglądzie profilu danych wysyła zapytania na żywo do oryginalnego źródła danych.

Dostępne profile

Zadanie profilowania danych może obliczać osiem różnych profilów danych. Pięć z tych profilów analizuje poszczególne kolumny, a pozostałe trzy analizują wiele kolumn lub relacji między kolumnami i tabelami.

Poniższe pięć profilów analizuje poszczególne kolumny.

Profile analizujące poszczególne kolumny	Opis
Profil dystrybucji długości kolumny	Raportuje wszystkie różne długości wartości ciągów w wybranej kolumnie i procent wierszy w tabeli, które reprezentuje każda długość. Ten profil ułatwia identyfikowanie problemów w danych, takich jak nieprawidłowe wartości. Na przykład profilujesz kolumnę kodów stanów Stanów Zjednoczonych, która powinna zawierać dwa znaki i odnajdywać wartości dłuższe niż dwa znaki.
Profil współczynnika pustych wartości kolumny	Raportuje procent wartości null w wybranej kolumnie. Ten profil pomaga zidentyfikować problemy w danych, takie jak nieoczekiwanie wysoki współczynnik wartości null w kolumnie. Na przykład profilujesz kolumnę Kod pocztowy/Kod pocztowy i odnajdujesz niedopuszczalnie wysoki odsetek brakujących kodów.
Profil schematu kolumny	Raportuje zestaw wyrażeń regularnych, które obejmują określony procent wartości w kolumnie ciągu. Ten profil ułatwia identyfikowanie problemów w danych, takich jak ciąg, który jest nieprawidłowy. Ten profil może również sugerować wyrażenia regularne, które mogą być używane w przyszłości do weryfikowania nowych wartości. Na przykład wzór profilu kolumny Kodu pocztowego Stanów Zjednoczonych może generować wyrażenia regularne: \d{5}-\d{4}, \d{5}i \d{9}. Jeśli widzisz inne wyrażenia regularne, dane prawdopodobnie zawierają wartości nieprawidłowe lub w nieprawidłowym formacie.
Profil statystyk kolumny	Statystyki, takie jak minimalna, maksymalna, średnia i odchylenie standardowe dla kolumn liczbowych oraz minimalna i maksymalna dla kolumn typu data/godzina. Ten profil ułatwia identyfikowanie problemów w danych, takich jak daty, które są nieprawidłowe. Na przykład profilujesz kolumnę dat historycznych i odkrywasz maksymalną datę, która jest w przyszłości.
Profil dystrybucji wartości kolumny	Raportuje wszystkie odrębne wartości w wybranej kolumnie i procent wierszy w tabeli, które reprezentuje każda wartość. Może również zgłaszać wartości reprezentujące więcej niż określony procent wierszy w tabeli. Ten profil ułatwia identyfikowanie problemów w danych, takich jak nieprawidłowa liczba unikatowych wartości w kolumnie. Na przykład profilujesz kolumnę, która ma zawierać stany w Stanach Zjednoczonych i odnajdzie ponad 50 odrębnych wartości.

Poniższe trzy profile analizują wiele kolumn lub relacji między kolumnami i tabelami.

Profile analizujące wiele kolumn	Opis
Profil klucza kandydata	Raportuje, czy kolumna, czy zestaw kolumn jest kluczem, czy przybliżonym kluczem dla wybranej tabeli. Ten profil pomaga również identyfikować problemy w danych, takie jak zduplikowane wartości w potencjalnej kolumnie klucza.
Profil zależności funkcjonalnej	Raportuje zakres, w jakim wartości w jednej kolumnie (kolumnie zależnej) zależą od wartości w innej kolumnie lub zestawie kolumn (kolumna determinant). Ten profil ułatwia również identyfikowanie problemów w danych, takich jak nieprawidłowe wartości. Na przykład profilujesz zależność między kolumną zawierającą kody pocztowe Stanów Zjednoczonych i kolumną zawierającą stany w Stanach Zjednoczonych. Ten sam kod pocztowy powinien zawsze mieć ten sam stan, ale profil odnajduje naruszenia tej zależności.
Profil włączania wartości	Oblicza nakładające się wartości między dwiema kolumnami lub zestawami kolumn. Ten profil może określić, czy kolumna lub zestaw kolumn są odpowiednie do obsługi jako klucza obcego między wybranymi tabelami. Ten profil ułatwia również identyfikowanie problemów w danych, takich jak nieprawidłowe wartości. Na przykład profilujesz kolumnę ProductID tabeli Sales i dowiesz się, że kolumna zawiera wartości, które nie zostały znalezione w kolumnie ProductID tabeli Products.

Wymagania wstępne dotyczące prawidłowego profilu

Profil jest nieprawidłowy, chyba że wybierzesz tabele i kolumny, które nie są puste, a kolumny zawierają typy danych, które są prawidłowe dla profilu.

Prawidłowe typy danych

Niektóre z dostępnych profilów mają znaczenie tylko dla niektórych typów danych. Na przykład obliczanie profilu wzorca kolumny dla kolumny zawierającej wartości liczbowe lub data/godzina nie ma znaczenia. W związku z tym taki profil jest nieprawidłowy.

Profil	Prawidłowe typy danych*
Profil Statystyk Kolumn	Kolumny typu liczbowego lub typu datetime (bez mean i stddev dla kolumny datetime)
ColumnNullRatioProfile	Wszystkie kolumny**
Profil Rozkładu Wartości Kolumny	Kolumny typu całkowitego, typu znakowego oraz typu data/godzina
ProfilDystrybucjiDługościKolumny	Kolumny znaków typu
ColumnPatternProfile	Kolumny znaków typu
CandidateKeyProfile	Kolumny typu całkowitego, typu znakowego oraz typu data/godzina
ProfilZależnościFunkcjonalnej	Kolumny typu całkowitego, typu znakowego oraz typu data/godzina
InclusionProfile	Kolumny typu całkowitego, typu znakowego oraz typu data/godzina

* W poprzedniej tabeli prawidłowych typów danych zawarte są następujące specyficzne typy danych: liczba całkowita, znak, data i godzinaoraz typy liczbowe.

Typy liczb całkowitych obejmują bit, tinyint, smallint, inti bigint.

Typy znaków obejmują char, nchar, varchari nvarchar, ale nie obejmują varchar(max) i nvarchar(max).

Typy daty i godziny obejmują daty/godziny, smalldatetime i znacznik czasu .

Typy liczbowe obejmują typy liczb całkowitych (z wyjątkiem typu bit), pieniądze, małe pieniądze, dziesiętne, zmiennoprzecinkowe, rzeczywistei liczbowe.

** obrazu, tekstu, XML, udti typy wariantów nie są obsługiwane w profilach innych niż profil współczynnika brakujących wartości w kolumnie.

Prawidłowe tabele i kolumny

Jeśli tabela lub kolumna jest pusta, profilowanie danych wykonuje następujące akcje:

Gdy wybrana tabela lub widok jest pusta, zadanie Profilowanie danych nie oblicza żadnych profilów.
Gdy wszystkie wartości w wybranej kolumnie mają wartość null, zadanie Profilowanie danych oblicza tylko profil współczynnika wartości null kolumny. Zadanie nie oblicza profilu dystrybucji długości kolumny, profilu wzorca kolumny, profilu statystyki kolumny lub profilu dystrybucji wartości kolumny.

Funkcje zadania profilowania danych

Zadanie profilowania danych ma następujące wygodne opcje konfiguracji:

Kolumny z symbolami wieloznacznymi W trakcie konfigurowania żądania profilu, zadanie akceptuje (*) symbol wieloznaczny zamiast nazwy kolumny. Upraszcza to konfigurację i ułatwia odnajdywanie cech nieznanych danych. Po uruchomieniu zadania profilowane są wszystkie kolumny zawierające odpowiedni typ danych.
szybki profil Możesz wybrać pozycję Szybki profil, aby szybko skonfigurować zadanie. Szybki profil tworzy profil tabeli lub widoku, używając wszystkich domyślnych profili i ustawień.

Niestandardowe komunikaty rejestrowania dostępne w zadaniu profilowania danych

W poniższej tabeli wymieniono niestandardowe wpisy dziennika dla zadania profilowania danych. Aby uzyskać więcej informacji, zapoznaj się z Integration Services Logging (SSIS).

Wpis dziennika	Opis
ŚladZadaniaProfilowaniaDanych	Zawiera opisowe informacje o stanie zadania. Komunikaty zawierają następujące informacje: Rozpoczynanie przetwarzania żądań Uruchamianie zapytania Koniec zapytania Kończenie żądania obliczeniowego

Dane wyjściowe i jego schemat

Zadanie Profilowanie danych generuje wybrane profile w formacie XML, który jest ustrukturyzowany zgodnie ze schematem DataProfile.xsd. Możesz określić, czy te dane wyjściowe XML są zapisywane w pliku, czy w zmiennej pakietu. Ten schemat można wyświetlić w trybie online na stronie https://schemas.microsoft.com/sqlserver/2008/DataDebugger/. Na stronie internetowej możesz zapisać lokalną kopię schematu. Następnie możesz wyświetlić lokalną kopię schematu w programie Microsoft Visual Studio lub innym edytorze schematów, w edytorze XML lub w edytorze tekstów, takim jak Notatnik.

Ten schemat informacji o jakości danych może być przydatny w następujących celach:

Wymiana informacji o jakości danych w ramach i pomiędzy organizacjami.
Tworzenie niestandardowych narzędzi, które współpracują z informacjami o jakości danych.

Docelowa przestrzeń nazw jest identyfikowana w schemacie jako https://schemas.microsoft.com/sqlserver/2008/DataDebugger/.

Dane wyjściowe w warunkowym przepływie pracy pakietu

Składniki profilowania danych nie zawierają wbudowanych funkcji implementowania logiki warunkowej w przepływie pracy pakietu usług Integration Services na podstawie danych wyjściowych zadania profilowania danych. Można jednak łatwo dodać tę logikę z minimalną ilością programowania w zadaniu Skrypt. Ten kod wykona zapytanie XPath względem danych wyjściowych XML, a następnie zapisze wynik w zmiennej pakietu. Ograniczenia pierwszeństwa łączące zadanie skryptu z kolejnymi zadaniami mogą używać wyrażenia w celu określenia przepływu pracy. Na przykład zadanie Skrypt wykrywa, że wartość procentowa wartości null w kolumnie przekracza określony próg. Jeśli ten warunek jest spełniony, możesz przerwać proces i rozwiązać problem, zanim będziesz kontynuować.

Konfiguracja zadania profilowania danych

Zadanie profilowania danych można skonfigurować przy użyciu edytora zadań profilowania danych . Edytor ma dwie strony:

strona ogólna
Na stronie Ogólne należy określić plik wyjściowy lub zmienną. Możesz również wybrać Szybki Profil, aby skonfigurować zadanie do obliczania profili przy użyciu ustawień domyślnych. Aby uzyskać więcej informacji, zobacz formularz szybkiego profilu dla pojedynczej tabeli (zadanie profilowania danych).

Strona żądań profilu
Na stronie Żądania profilu należy określić źródło danych i wybrać i skonfigurować profile danych, które mają zostać obliczone. Aby uzyskać więcej informacji na temat różnych profilów, które można skonfigurować, zobacz następujące tematy:

Opcje żądania profilu klucza kandydata (zadanie profilowania danych)
opcje żądania profilu dystrybucji długości kolumny (zadanie profilowania danych)
Opcje żądania profilu współczynnika wartości null kolumny (zadanie profilowania danych)
Opcje żądania profilu wzorca kolumn (zadanie profilowania danych)
opcje żądania profilu statystyki kolumny (zadanie profilowania danych)
Opcje żądania Profilu Dystrybucji Wartości Kolumny (Zadanie Profilowania Danych)
Opcje Żądania Profilu Zależności Funkcjonalnej (Zadanie Profilowania Danych)
Opcje Żądania Profilu Inkluzji Wartości (Zadanie Profilowania Danych)

Last updated on 2025-01-02