Uwaga
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Dotyczy:SQL Server
SSIS Integration Runtime w ramach usługi Azure Data Factory
Transformacja grupowania rozmytego wykonuje zadania czyszczenia danych, identyfikując wiersze danych, które mogą być zduplikowane, i wybierając standardowy wiersz danych do użycia w standaryzacji danych.
Uwaga / Notatka
Aby uzyskać bardziej szczegółowe informacje na temat przekształcania grupowania rozmytego, w tym ograniczeń wydajności i pamięci, przeczytaj oficjalny dokument „Wyszukiwanie rozmyte i grupowanie rozmyte w usługach SQL Server Integration Services 2005”.
Przekształcenie grupowania rozmytego wymaga połączenia z wystąpieniem SQL Server w celu utworzenia tymczasowych tabel SQL Server, których algorytm przekształcenia potrzebuje, aby wykonać swoje zadanie. Połączenie musi odnosić się do użytkownika, który ma uprawnienia do tworzenia tabel w bazie danych.
Aby skonfigurować transformację, należy wybrać kolumny wejściowe do użycia podczas identyfikowania duplikatów oraz typ dopasowania - przybliżony lub dokładny - dla każdej kolumny. Dokładne dopasowanie gwarantuje, że zostaną zgrupowane tylko wiersze, które mają identyczne wartości w tej kolumnie. Dokładne dopasowanie można zastosować do kolumn dowolnego typu danych usług Integration Services, z wyjątkiem DT_TEXT, DT_NTEXT i DT_IMAGE. Dopasowanie rozmyte grupuje wiersze, które mają mniej więcej te same wartości. Metoda przybliżonego dopasowania danych jest oparta na wyniku podobieństwa określonego przez użytkownika. Przy dopasowywaniu rozmytemu można używać tylko kolumn z typów danych DT_WSTR i DT_STR. Aby uzyskać więcej informacji, zobacz Integration Services Data Types.
Dane wyjściowe przekształcenia obejmują wszystkie kolumny wejściowe, co najmniej jedną kolumnę ze standardowymi danymi oraz kolumnę zawierającą wynik podobieństwa. Wynik jest wartością dziesiętną z zakresu od 0 do 1. Wiersz kanoniczny ma ocenę 1. Inne wiersze w grupie rozmyte mają wyniki wskazujące, jak dobrze wiersz pasuje do wiersza kanonicznego. Im bliżej wynik wynosi 1, tym bliżej wiersz jest zgodny z wierszem kanonicznym. Jeśli grupa rozmyta zawiera wiersze, które są dokładnymi duplikatami wiersza kanonicznego, te wiersze również mają wynik 1. Przekształcenie nie powoduje usunięcia zduplikowanych wierszy; grupuje je, tworząc klucz, który odnosi wiersz kanoniczny do podobnych wierszy.
Przekształcenie tworzy jeden wiersz wyjściowy dla każdego wiersza wejściowego z następującymi dodatkowymi kolumnami:
Kolumna _key_in, która unikatowo identyfikuje każdy wiersz.
_key_out kolumna, która identyfikuje grupę zduplikowanych wierszy. Kolumna _key_out ma wartość kolumny _key_in w wierszu danych kanonicznych. Wiersze z taką samą wartością w _key_out należą do tej samej grupy. Wartość _key_out dla grupy odpowiada wartości _key_in w wierszu danych kanonicznych.
_score wartość z zakresu od 0 do 1, która wskazuje podobieństwo wiersza wejściowego do wiersza kanonicznego.
Są to domyślne nazwy kolumn i można skonfigurować transformację Grupowanie rozmyte, aby używać innych nazw. Dane wyjściowe przedstawiają również wskaźnik podobieństwa dla każdej kolumny, która uczestniczy w grupowaniu rozmytym.
Grupowanie rozmyte – przekształcenie obejmuje dwie funkcjonalności dostosowywania procesu grupowania: separatory tokenów i próg podobieństwa. Przekształcenie udostępnia domyślny zestaw ograniczników używanych do tokenizowania danych, ale można dodać nowe ograniczniki, które usprawniają tokenizację danych.
Próg podobieństwa wskazuje, jak ściśle transformacja identyfikuje duplikaty. Progi podobieństwa można ustawić na poziomie składnika i kolumny. Próg podobieństwa dla kolumn dostępny jest tylko w przypadku kolumn, które stosują dopasowanie rozmyte. Zakres podobieństwa wynosi od 0 do 1. Im bliżej 1 jest próg, tym bardziej podobne wiersze i kolumny muszą kwalifikować się jako duplikaty. Próg podobieństwa należy określić między wierszami i kolumnami, ustawiając właściwość MinSimilarity na poziomach składników i kolumn. Aby spełnić podobieństwo określone na poziomie składnika, wszystkie wiersze muszą mieć podobieństwo we wszystkich kolumnach, które są większe lub równe progowi podobieństwa określonemu na poziomie składnika.
Przekształcenie Rozmyte Grupowanie oblicza wewnętrzne wskaźniki podobieństwa, a wiersze, które mają niższe podobieństwo niż wartość określona w MinSimilarity, nie są grupowane.
Aby zidentyfikować próg podobieństwa, który działa dla danych, może być konieczne zastosowanie przekształcenia grupowania rozmytego kilka razy przy użyciu różnych progów podobieństwa minimalnego. W czasie wykonywania kolumny wyników w danych wyjściowych transformacji zawierają wyniki podobieństwa dla każdego wiersza w grupie. Za pomocą tych wartości można zidentyfikować próg podobieństwa, który jest odpowiedni dla danych. Jeśli chcesz zwiększyć podobieństwo, ustaw wartość MinSimilarity na wartość większą niż wartość w kolumnach wyników.
Grupowanie wykonywane przez przekształcenie można dostosować, ustawiając właściwości kolumn w danych wejściowych przekształcania rozmytego grupowania. Na przykład właściwość FuzzyComparisonFlags określa sposób porównywania danych ciągu w kolumnie, a właściwość ExactFuzzy określa, czy przekształcenie wykonuje dopasowanie rozmyte, czy dokładne dopasowanie.
Ilość pamięci używanej przez transformację rozmytego grupowania można skonfigurować przez ustawienie właściwości niestandardowej MaxMemoryUsage. Można określić liczbę megabajtów (MB) lub użyć wartości 0, aby umożliwić transformacji użycie dynamicznej ilości pamięci na podstawie jej potrzeb i dostępnej pamięci fizycznej. Właściwość niestandardowa MaxMemoryUsage może zostać zaktualizowana przez wyrażenie właściwości po załadowaniu pakietu. Aby uzyskać więcej informacji, zobacz Integration Services (SSIS) Expressions, Używanie wyrażeń właściwości w pakietachi Niestandardowe właściwości transformacji.
Ta transformacja ma jedno dane wejściowe i jedno dane wyjściowe. Nie obsługuje wyjścia błędu.
Porównanie wierszy
Podczas konfigurowania transformacji Grupowanie rozmyte można określić algorytm porównania używany przez transformację do porównywania wierszy w danych wejściowych transformacji. Jeśli ustawisz właściwość Wyczerpująca na true, przekształcenie porównuje każdy wiersz w danych wejściowych do każdego innego wiersza w danych wejściowych. Ten algorytm porównania może generować dokładniejsze wyniki, ale prawdopodobnie transformacja będzie działać wolniej, chyba że liczba wierszy w danych wejściowych jest mała. Aby uniknąć problemów z wydajnością, zaleca się ustawienie właściwości Wyczerpująca na true tylko podczas opracowywania pakietu.
Tabele tymczasowe i indeksy
W czasie wykonywania przekształcenia Grupowanie rozmyte tworzy obiekty tymczasowe, takie jak tabele i indeksy, potencjalnie o znaczącym rozmiarze, w bazie danych SQL Server, z którą łączy się transformacja. Rozmiar tabel i indeksów jest proporcjonalny do liczby wierszy w danych wejściowych przekształcenia oraz liczby tokenów utworzonych przez przekształcenie grupowania rozmytego.
Przekształcenie odnosi się również do tabel tymczasowych. Dlatego należy rozważyć połączenie przekształcenia grupowania rozmytego z wystąpieniem nieprodukcyjnym programu SQL Server, zwłaszcza jeśli serwer produkcyjny ma ograniczoną ilość dostępnego miejsca na dysku.
Wydajność tej transformacji może się poprawić, jeśli używane tabele i indeksy znajdują się na komputerze lokalnym.
Konfiguracja przekształcenia grupowania rozmytego
Właściwości można ustawić za pomocą projektanta usług SSIS lub programowo.
Aby uzyskać więcej informacji o właściwościach, które można ustawić w oknie dialogowym edytora zaawansowanego
niestandardowe właściwości transformacji
Powiązane zadania
Aby uzyskać szczegółowe informacje na temat ustawiania właściwości tego zadania, kliknij jeden z następujących tematów:
Edytor przekształceń grupowania rozmytego (zakładka Menedżer połączeń)
Użyj karty Menedżer połączeń okna dialogowego Edytora przekształcania rozmytego grupowania , aby wybrać istniejące połączenie lub utworzyć nowe.
Uwaga / Notatka
Serwer określony przez połączenie musi mieć uruchomiony program SQL Server. Przekształcenie Grupowanie rozmyte tworzy tymczasowe obiekty danych w bazie danych tempdb, które mogą być tak duże, jak cały pełny zestaw danych wejściowych do przekształcenia. Podczas wykonywania transformacji wysyła ona zapytania serwera do tych obiektów tymczasowych. Może to mieć wpływ na ogólną wydajność serwera.
Opcje
Menedżer połączenia OLE DB
Wybierz istniejącego menedżera połączeń OLE DB przy użyciu pola listy lub utwórz nowe połączenie przy użyciu przycisku Nowy .
Nowy
Utwórz nowe połączenie przy użyciu okna dialogowego Konfigurowanie Menedżera połączeń OLE DB.
Edytor Przekształcania Grupowania Rozmytego (karta Kolumny)
Użyj karty Kolumny okna dialogowego Edytora przekształcania grupowania rozmytego, aby określić kolumny używane do grupowania wierszy z zduplikowanymi wartościami.
Opcje
Dostępne Kolumny Wejściowe
Wybierz z tej listy kolumny wejściowe używane do grupowania wierszy z zduplikowanymi wartościami.
Nazwa
Wyświetl nazwy dostępnych kolumn wejściowych.
Przejście przez
Wybierz, czy w danych wyjściowych przekształcenia ma być uwzględnina kolumna wejściowa. Wszystkie kolumny używane do grupowania są automatycznie kopiowane do danych wyjściowych. Możesz uwzględnić dodatkowe kolumny, zaznaczając tę kolumnę.
Kolumna wejściowa
Wybierz jedną z kolumn wejściowych wybranych wcześniej na liście Dostępne kolumny wejściowe .
alias danych wyjściowych
Wprowadź opisową nazwę odpowiadającej mu kolumny wyjściowej. Domyślnie nazwa kolumny wyjściowej jest taka sama jak nazwa kolumny wejściowej.
Alias wyjściowy grupy
Wprowadź opisową nazwę kolumny, która będzie zawierać wartość kanoniczną pogrupowanych duplikatów. Domyślną nazwą tej kolumny wyjściowej jest nazwa kolumny wejściowej z dołączonym _clean.
Typ dopasowania
Wybierz rozmyte lub dokładne dopasowanie. Wiersze są traktowane jako duplikaty, jeśli są wystarczająco podobne we wszystkich kolumnach według kryterium dopasowania rozmytego. Jeśli określisz również dokładne dopasowanie dla niektórych kolumn, tylko wiersze, które zawierają identyczne wartości w dokładnie pasujących kolumnach, są traktowane jako możliwe duplikaty. W związku z tym, jeśli wiesz, że określona kolumna nie zawiera błędów ani niespójności, możesz określić dokładne dopasowanie dla tej kolumny, aby zwiększyć dokładność dopasowywania rozmytego w innych kolumnach.
Minimalna podobieństwo
Ustaw próg podobieństwa na poziomie sprzężenia przy użyciu suwaka. Im bliżej wartość zbliża się do 1, tym bardziej wartości szukanej muszą przypominać wartość źródłową, aby kwalifikować się jako dopasowanie. Zwiększenie progu może zwiększyć szybkość dopasowywania, ponieważ należy wziąć pod uwagę mniej rekordów kandydatów.
Alias danych wyjściowych podobieństwa
Określ nazwę nowej kolumny wyjściowej zawierającej wyniki podobieństwa dla wybranego sprzężenia. Jeśli pozostawisz tę wartość pustą, kolumna wyjściowa nie zostanie utworzona.
Liczby
Określ znaczenie liczb wiodących i końcowych podczas porównywania danych kolumn. Jeśli na przykład wiodące cyfry są znaczące, "123 Main Street" nie będzie grupowana z "456 Main Street".
Wartość | Opis |
---|---|
Ani jeden | Liczby wiodące i końcowe nie są znaczące. |
Wiodący | Tylko liczby wiodące są znaczące. |
Końcówka | Tylko końcowe cyfry są znaczące. |
LeadingAndTrailing | Liczby wiodące i końcowe są znaczące. |
Flagi porównania
Aby uzyskać informacje o opcjach porównania ciągów, zobacz Porównanie danych ciągów.
Edytor transformacji grupowania rozmytego (zaawansowana zakładka)
Użyj karty Zaawansowane okna dialogowego Edytora przekształcania rozmytego grupowania , aby określić kolumny wejściowe i wyjściowe, ustawić progi podobieństwa i zdefiniować ograniczniki.
Uwaga / Notatka
Właściwości Exhaustive i MaxMemoryUsage przekształcenia Grupowanie Rozmyte nie są dostępne w Edytorze przekształcania Grupowania Rozmytego, ale można je ustawić za pomocą Edytora Zaawansowanego. Aby uzyskać więcej informacji na temat tych właściwości, zobacz sekcję Przekształcenie rozmytego grupowania w sekcji Właściwości niestandardowe przekształceń.
Opcje
Nazwa kolumny klucza wejściowego
Określ nazwę kolumny wyjściowej zawierającej unikatowy identyfikator dla każdego wiersza wejściowego. Kolumna _key_in ma wartość, która jednoznacznie identyfikuje każdy wiersz.
Nazwa kolumny klucza wyjściowego
Określ nazwę kolumny wyjściowej zawierającej unikatowy identyfikator głównego wiersza grupy powtarzających się wierszy. Kolumna _key_out odpowiada wartości _key_in wiersza danych kanonicznych.
Nazwa kolumny wyników podobieństwa
Określ nazwę kolumny zawierającej wynik podobieństwa. Wynik podobieństwa to wartość z zakresu od 0 do 1, która wskazuje podobieństwo wiersza wejściowego do wiersza kanonicznego. Im bliżej wynik wynosi 1, tym bliżej wiersz jest zgodny z wierszem kanonicznym.
Próg podobieństwa
Ustaw próg podobieństwa za pomocą suwaka. Im bliżej progu do 1, tym bardziej wiersze muszą przypominać siebie nawzajem, aby kwalifikować się jako duplikaty. Zwiększenie progu może zwiększyć szybkość dopasowywania, ponieważ należy wziąć pod uwagę mniej rekordów kandydatów.
ograniczniki tokenu
Przekształcenie udostępnia domyślny zestaw ograniczników do tokenizowania danych, ale można dodawać lub usuwać ograniczniki zgodnie z potrzebami, edytując listę.
Zobacz też
Przekształcanie rozmytego wyszukiwania
Przekształcenia usługi integracyjne