Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Dotyczy:SQL Server
SSIS Integration Runtime w ramach usługi Azure Data Factory
Przed przejrzeniem profilu danych źródłowych pierwszym krokiem jest skonfigurowanie i uruchomienie zadania profilowania danych. To zadanie należy utworzyć w pakiecie usług Integration Services. Aby skonfigurować zadanie profilowania danych, należy użyć Edytora zadań profilowania danych. Ten edytor umożliwia wybranie miejsca, w którym mają być wyświetlane profile i które profile mają być obliczane. Po skonfigurowaniu zadania uruchom pakiet w celu obliczenia profilów danych.
Wymagania i ograniczenia
Zadanie Profilowanie danych działa tylko z danymi przechowywanymi w programie SQL Server. Nie działa z źródłami danych innych firm ani opartymi na plikach.
Ponadto, aby uruchomić pakiet zawierający zadanie profilowania danych, należy użyć konta, które ma uprawnienia do odczytu/zapisu, w tym uprawnienia CREATE TABLE, w bazie danych tempdb.
Zadanie profilowania danych w pakiecie
Zadanie Profilowanie danych konfiguruje tylko profile i tworzy plik wyjściowy zawierający obliczone profile. Aby przejrzeć ten plik wyjściowy, należy użyć przeglądarki profilów danych, autonomicznego programu przeglądarki. Ponieważ dane wyjściowe muszą być wyświetlane oddzielnie, możesz użyć zadania Profilowanie danych w pakiecie, który nie zawiera żadnych innych zadań.
Nie trzeba jednak używać zadania profilowania danych jako jedynego zadania w pakiecie. Jeśli chcesz wykonać profilowanie danych w przepływie pracy lub przepływie danych bardziej złożonego pakietu, dostępne są następujące opcje:
Aby zaimplementować logikę warunkową opartą na pliku wyjściowym zadania, w przepływie sterowania pakietu umieść zadanie skryptu po zadaniu profilowania danych. Następnie możesz użyć tego zadania Skrypt, aby wykonać zapytanie dotyczące pliku wyjściowego.
Aby profilować dane w przepływie danych po załadowaniu i przekształceniu danych, musisz tymczasowo zapisać zmienione dane w tabeli programu SQL Server. Następnie możesz profilować zapisane dane.
Aby uzyskać więcej informacji, zobacz Dołączanie zadania profilowania danych w przepływie pracy pakietu.
Konfiguracja danych wyjściowych zadania
Gdy zadanie profilowania danych znajduje się w pakiecie, należy skonfigurować dane wyjściowe dla profilów, które będą obliczane przez zadanie. Aby skonfigurować dane wyjściowe dla profilów, użyj strony Ogólne w Edytorze zadań profilowania danych. Oprócz określenia miejsca docelowego dla danych wyjściowych strona Ogólne oferuje również możliwość szybkiego profilowania danych. Po wybraniu Szybkiego profilu zadanie profilowania danych profiluje tabelę lub widok, używając niektórych lub wszystkich domyślnych profili wraz z ich ustawieniami.
Aby uzyskać więcej informacji, zobacz Edytor zadań profilowania danych (strona ogólna) i Formularz szybkiego profilu pojedynczej tabeli (zadanie profilowania danych).
Ważne
Plik wyjściowy może zawierać poufne dane dotyczące bazy danych i danych, które zawiera baza danych. Aby uzyskać sugestie dotyczące sposobu zabezpieczania tego pliku, zobacz Access to Files Used by Packages (Dostęp do plików używanych przez pakiety).
Wybór i konfiguracja profilów do obliczenia
Po skonfigurowaniu pliku wyjściowego należy wybrać profile danych do obliczenia. Zadanie profilowania danych może obliczać osiem różnych profilów danych. Pięć z tych profilów analizuje poszczególne kolumny, a pozostałe trzy analizują wiele kolumn lub relacji między kolumnami i tabelami. W jednym zadaniu profilowania danych można obliczyć wiele profilów dla wielu kolumn lub kombinacji kolumn w wielu tabelach lub widokach.
W poniższej tabeli opisano raporty, które oblicza każdy z tych profilów, oraz typy danych, dla których profil jest prawidłowy.
| Aby obliczyć | Które pomagają zidentyfikować | Użyj tego profilu |
|---|---|---|
| Wszystkie różne długości wartości ciągu w wybranej kolumnie i procent wierszy w tabeli, które reprezentuje każda długość. | Wartości ciągów, które nie są prawidłowe— na przykład profilujesz kolumnę, która ma używać dwóch znaków dla kodów stanu w Stanach Zjednoczonych, ale odnajduje wartości, które są dłuższe niż dwa znaki. |
Rozkład długości kolumny —Prawidłowe dla kolumny z jednym z następujących typów danych znaków: Char nchar varchar nvarchar |
| Zestaw wyrażeń regularnych, które obejmują określony procent wartości w kolumnie ciągu. Ponadto w celu znalezienia wyrażeń regularnych, które mogą być używane w przyszłości do weryfikowania nowych wartości |
Wartości ciągów, które są nieprawidłowe lub nie mają poprawnego formatu:Na przykład profil wzorca kolumny z kodem pocztowym może generować następujące wyrażenia regularne: \d{5}-\d{4}, \d{5}, i \d{9}. Jeśli dane wyjściowe zawierają inne wyrażenia regularne, dane zawierają wartości nieprawidłowe lub w nieprawidłowym formacie. |
Profil wzorca kolumny —Dotyczy kolumny z jednym z następujących typów danych znakowych: Char nchar varchar nvarchar |
| Procent wartości null w wybranej kolumnie. | Nieoczekiwanie wysoki współczynnik wartości null w kolumnieNa przykład profilujesz kolumnę, która ma zawierać kody pocztowe Stanów Zjednoczonych, ale odnajdziesz niedopuszczalnie wysoki odsetek brakujących kodów pocztowych. |
Współczynnik null kolumny —Prawidłowy dla kolumny, która ma jeden z następujących typów danych: image tekst xml Typy definiowane przez użytkownika typy wariantów |
| Statystyki takie jak minimalna, maksymalna, średnia i odchylenie standardowe dla kolumn liczbowych oraz minimalna i maksymalna dla kolumn daty/godziny . | Wartości liczbowe i daty, które nie są prawidłowe— na przykład profilujesz kolumnę dat historycznych, ale odkryjesz maksymalną datę w przyszłości. |
Profil statystyk kolumny —Prawidłowe dla kolumny z jednym z tych typów danych. Typy danych liczbowych: Typy całkowite (z wyjątkiem bitów) pieniędzy małe pieniądze decimal float prawdziwy numeryczny Typy danych daty i godziny: datetime smalldatetime Znacznik czasu date time datetime2 datetimeoffset Uwaga: w przypadku kolumny, która ma typ danych daty i godziny, profil oblicza wartość minimalną i maksymalną. |
| Wszystkie odrębne wartości w wybranej kolumnie i procent wierszy w tabeli, które reprezentuje każda wartość. Lub wartości reprezentujące więcej niż określony procent w tabeli. | Niepoprawna liczba unikatowych wartości w kolumnie — na przykład profilujesz kolumnę zawierającą stany w Stanach Zjednoczonych, ale odkryjesz więcej niż 50 unikatowych wartości. |
Rozkład wartości kolumny —Prawidłowa dla kolumny z jednym z następujących typów danych. Typy danych liczbowych: Typy całkowite (z wyjątkiem bitów) pieniędzy małe pieniądze decimal float prawdziwy numeryczny Typy danych znaków: Char nchar varchar nvarchar Typy danych daty i godziny: datetime smalldatetime Znacznik czasu date time datetime2 datetimeoffset |
| Określa, czy kolumna lub zestaw kolumn jest kluczem, czy przybliżonym kluczem dla wybranej tabeli. | Zduplikowane wartości w potencjalnej kolumnie klucza—Na przykład, profilujesz kolumny Name (Nazwa) i Address (Adres) w tabeli Customers (Klienci) i odkrywasz zduplikowane wartości, gdzie kombinacje nazw i adresów powinny być unikatowe. |
Klucz kandydata —Profil z wieloma kolumnami, który raportuje, czy kolumna czy zestaw kolumn jest odpowiedni do służyć jako klucz dla wybranej tabeli. Prawidłowe dla kolumn z jednym z tych typów danych. Typy danych liczb całkowitych: bit tinyint smallint int bigint Typy danych znaków: Char nchar varchar nvarchar Typy danych daty i godziny: datetime smalldatetime Znacznik czasu date time datetime2 datetimeoffset |
| Zakres, w jakim wartości w jednej kolumnie (kolumnie zależnej) zależą od wartości w innej kolumnie lub zestawie kolumn (kolumnie determinantnej). | Wartości, które nie są prawidłowe w kolumnach zależnych—Na przykład profilujesz zależność między kolumną zawierającą kody pocztowe Stanów Zjednoczonych i kolumną zawierającą stany w Stanach Zjednoczonych. Ten sam kod pocztowy powinien zawsze mieć ten sam stan. Jednak profil odnajduje naruszenia zależności. |
Zależność funkcjonalna —Prawidłowe dla kolumn z jednym z tych typów danych. Typy danych liczb całkowitych: bit tinyint smallint int bigint Typy danych znaków: Char nchar varchar nvarchar Typy danych daty i godziny: datetime smalldatetime Znacznik czasu date time datetime2 datetimeoffset |
| Czy kolumna lub zestaw kolumn są odpowiednie jako klucz obcy między wybranymi tabelami. Oznacza to, że ten profil zgłasza nakładające się wartości między dwiema kolumnami lub zestawami kolumn. |
Wartości, które są nieprawidłowe—Na przykład analizujesz kolumnę ProductID w tabeli Sales. Profil odnajduje, że kolumna zawiera wartości, które nie zostały znalezione w kolumnie ProductID tabeli Products. |
Dołączanie wartości —Prawidłowe dla kolumn z jednym z następujących typów danych: Typy danych liczb całkowitych: bit tinyint smallint int bigint Typy danych znaków: Char nchar varchar nvarchar Typy danych daty i godziny: datetime smalldatetime Znacznik czasu date time datetime2 datetimeoffset |
Aby wybrać profile do obliczenia, użyj strony Żądania profilu w Edytorze zadań profilowania danych. Aby uzyskać więcej informacji, zobacz Edytor zadań profilowania danych (strona żądań profilu).
Na stronie Żądanie profilu należy również określić źródło danych i skonfigurować profile danych. Podczas konfigurowania zadania zastanów się nad następującymi informacjami:
Aby uprościć konfigurację i ułatwić odnajdywanie właściwości nieznanych danych, można użyć symbolu wieloznakowego (*), zamiast nazwy pojedynczej kolumny. Jeśli używasz tego symbolu wieloznakowego, zadanie będzie profilować każdą kolumnę, która ma odpowiedni typ danych, co z kolei może spowolnić przetwarzanie.
Gdy wybrana tabela lub widok jest pusta, zadanie Profilowanie danych nie oblicza żadnych profilów.
Gdy wszystkie wartości w wybranej kolumnie mają wartość null, zadanie Profilowanie danych oblicza tylko profil współczynnika wartości null kolumny. Nie oblicza profilu dystrybucji długości kolumny, profilu wzorca kolumny, profilu statystyk kolumny lub profilu dystrybucji wartości kolumny dla pustej kolumny.
Każdy z dostępnych profilów danych ma własne opcje konfiguracji. Aby uzyskać więcej informacji na temat tych opcji, zobacz następujące tematy:
Opcje żądania profilu klucza kandydata (zadanie profilowania danych)
Opcje żądania profilu rozkładu długości kolumn (zadanie profilowania danych)
Opcje żądania profilu stosunku wartości null kolumny (zadanie profilowania danych)
Opcje żądania profilu wzorca kolumny (zadanie profilowania danych)
Opcje żądania profilu statystyk kolumn (zadanie profilowania danych)
Opcje żądania profilu dystrybucji wartości kolumny (zadanie profilowania danych)
Opcje żądania profilu zależności funkcjonalnych (zadanie profilowania danych)
Opcje żądania profilu uwzględnienia wartości (zadanie profilowania danych)
Wykonanie pakietu zawierającego zadanie profilowania danych
Po skonfigurowaniu zadania profilowania danych można uruchomić zadanie. Następnie zadanie oblicza profile danych i generuje te informacje w formacie XML do pliku lub zmiennej pakietu. Struktura tego kodu XML jest zgodna ze schematem DataProfile.xsd. Schemat można otworzyć w programie Microsoft Visual Studio lub innym edytorze schematów, w edytorze XML lub w edytorze tekstów, takim jak Notatnik. Ten schemat informacji o jakości danych może być przydatny w następujących celach:
Aby wymieniać informacje o jakości danych wewnątrz i pomiędzy organizacjami.
Tworzenie niestandardowych narzędzi, które współpracują z informacjami o jakości danych.
Docelowa przestrzeń nazw jest identyfikowana w schemacie jako https://schemas.microsoft.com/sqlserver/2008/DataDebugger/.