Udostępnij za pośrednictwem


Przekształcenie grupowania rozmyte

transformacja rozmyte grupowania wykonuje zadania oczyszczania identyfikujący wierszy danych, które są prawdopodobnie duplikatami i wybierając kanoniczny wiersz danych w normalizujących danych dane.

Ostrzeżenie

Aby uzyskać szczegółowe informacje na temat transformacja rozmyte grupowania, w tym wydajność i ograniczenia ilości pamięci, zobacz oficjalny dokument Wyszukiwanie rozmyte i rozmyte grupowania w programie SQL Server Integration Services 2005.

transformacja rozmyte grupowania wymaga połączenia z wystąpienie SQL Server utworzyć tymczasowe SQL Server tabele wymagane przez algorytm transformacja do wykonania pracy.Połączenie musi być rozpoznawana użytkownik mający uprawnienie do tworzenia tabel bazy danych.

Aby skonfigurować transformacja, należy wybrać wprowadzania kolumna przy identyfikowaniu duplikaty i należy wybrać typ dopasowania — rozmyte lub dokładne — dla każdej kolumna.Gwarancje dokładny odpowiednik, które tylko wiersze, które mają identyczne wartości w tym kolumna zostaną pogrupowane.Dokładne dopasowywanie można stosować do kolumn w każdej Integration Services typu danych z wyjątkiem DT_TEXT, DT_NTEXT i DT_IMAGE.Dopasowanie rozmyte grupuje wiersze, które mają te same wartości.Metoda przybliżone dopasowanie danych opiera się na wynik podobieństwa określone przez użytkownika.Mogą być używane tylko do kolumn o typach danych DT_WSTR i DT_STR w dopasowywanie rozmyte.Aby uzyskać więcej informacji, zobacz Typy danych usług integracji.

wynik przekształcenia Zawiera wszystkie wprowadzania kolumn, jedną lub więcej kolumn z danymi znormalizowanym i kolumna, która zawiera wynik podobieństwa.Wynik jest wartością dziesiętną między 0 i 1.Kanoniczna wiersz ma wynik 1.Pozostałe wiersze w grupie rozmyte mają wyniki wskazujące jak wiersz odpowiada wiersz kanoniczną.Im bliżej to wynik wynosi 1, ściślej wiersz odpowiada wiersz kanoniczną.Jeśli rozmyte grupy zawiera wiersze, które są dokładne duplikaty wierszy kanoniczny, wiersze te również mieć wynik 1.transformacja nie usuwa zduplikowane wiersze; grup je, tworząc klucz, który dotyczy wiersza kanoniczny podobne wiersze.

transformacja tworzy jeden wiersz danych wyjściowych dla każdego wiersza wejściowego, następujące dodatkowe kolumny:

  • _key_in, kolumna, która jednoznacznie identyfikuje każdy wiersz.

  • _key_out, kolumna, która identyfikuje grupę zduplikowane wiersze._Key_out kolumna ma wartość _key_in kolumny w wierszu danych kanonicznej.Wiersze o tej samej wartości w _key_out są częścią tej samej grupy.The _key_outvalue for a group corresponds to the value of _key_in in the canonical data row.

  • _score, wartość między 0 i 1, wskazująca podobieństwa wprowadzania wiersza do wiersza kanonicznej.

Są one domyślnie kolumna i nazwy można skonfigurować transformacja rozmyte grupowania stosować inne nazwy.Dane wyjściowe zapewnia także wynik podobieństwa dla każdej kolumna, która uczestniczy w grupowanie rozmyte.

Grupowanie rozmyte transformacja obejmuje Dostosowywanie grupowania wykonuje dwie funkcje: ograniczniki token i próg podobieństwa.transformacja zapewnia domyślny zestaw ograniczników używane do tokenize danych, ale można dodać nowe ograniczników zwiększające tokenizacja danych.

Próg podobieństwa wskazuje, jak ściśle transformacja identyfikuje duplikaty.Progi podobieństwa zestaw na poziomie składnika i kolumna.Próg kolumna poziom podobieństwa jest dostępny tylko dla kolumn, które wykonują rozmyte dopasowania.Zakres podobieństw jest 0 lub 1.Bliżej 1 jest próg, podobne więcej wierszy i kolumn należy kwalifikować się jako duplikaty.Określić próg podobieństwa między wierszami i kolumnami ustawiając MinSimilarity Właściwość poziomy składnik i kolumna.Zaspokoić podobieństwa, określony poziom składnika, wszystkie wiersze musi mieć podobieństwa we wszystkich kolumnach, które jest większe niż lub równe podobieństwa określony poziom składnika.

transformacja rozmyte grupowania oblicza wewnętrzne środki podobieństwa i wierszy, które są podobne mniejszą niż wartość określona w MinSimilarity nie są pogrupowane.

Do identyfikowania próg podobieństwa, który działa dla danych, mogą mieć zastosowanie transformacja rozmyte grupowania kilka razy przy użyciu różnych podobieństwa minimalne progi.Czas, w kolumnach wynik uruchomienia at wynik przekształcenia zawierać wyniki podobieństwa dla każdego wiersza w grupie.Te wartości można użyć do identyfikowania próg podobieństwa, odpowiedni dla danych.Jeśli chcesz zwiększyć podobieństwa należy zestaw MinSimilarity na wartość większą niż wartość w kolumnach wynik.

Można dostosować grupowania, wykonujący transformacja przez ustawienie właściwości kolumny w rozmyte grupowanie dane wejściowe przekształcenia.Na przykład FuzzyComparisonFlags właściwość określa sposób transformacja porównuje dane ciąg kolumna, a ExactFuzzy właściwość określa, czy transformacja wykonuje rozmyte dopasowania lub dokładne dopasowanie.

Ilość pamięci używa transformacja rozmyte grupowania można skonfigurować, ustawiając MaxMemoryUsage właściwość niestandardowych.Można określić liczbę megabajtów (MB) lub użyć wartość 0, aby umożliwić transformacja używać dynamicznych ilość pamięci na podstawie jego potrzeb i dostępnej pamięci fizycznej.MaxMemoryUsage właściwość niestandardowych mogą być aktualizowane przez wyrażenie właściwość po załadowaniu pakiet.Aby uzyskać więcej informacji, zobacz Odwołanie do wyrażeń w usługach Integration Services, Za pomocą właściwości wyrażenia w opakowaniach, i Właściwości niestandardowe transformacji.

Tej transformacja ma jedno wejście i wyjście.Nie obsługuje błąd wyjścia.

Porównanie wierszy

Podczas konfigurowania transformacja rozmyte grupowania można określić algorytm porównania używa transformacja porównanie wierszy w dane wejściowe przekształcenia.Jeśli użytkownik zestaw Exhaustive Właściwość true, transformacja porównuje każdego wiersza w danych wejściowych do każdego wiersza w danych wejściowych.Ten algorytm porównanie może generować dokładniejsze wyniki, ale jest prawdopodobne transformacja wykonać wolniej, chyba że liczba wierszy w danych wejściowych jest mała.Aby uniknąć problemów z wydajnością, zaleca się zestaw Exhaustive Właściwość true tylko w trakcie rozwoju pakiet.

Tymczasowe tabel i indeksów

Przy uruchomieniu czas, rozmyte grupowania transformacja tworzy tymczasowe obiektów takich jak tabele i indeksy, potencjalnie znacznej wielkości w SQL Server bazy danych, która łączy się z transformacja.Rozmiar tabel i indeksów są proporcjonalne do liczby wierszy w dane wejściowe przekształcenia i liczby tokenów tworzony przez transformację rozmyte grupowania.

transformacja również kwerendy tabel tymczasowych.Dlatego należy rozważyć nawiązywanie transformacja rozmyte grupowania nie produkcji wystąpienie z SQL Server, zwłaszcza, jeśli serwer produkcyjny ma ograniczone dostępne miejsce na dysku.

Jeśli tabel i indeksów używa znajdują się na komputerze lokalnym, może zwiększyć wydajność tej transformacja.

Konfigurowanie rozmyte transformacji grupowania

zestaw właściwości poprzez SSIS Projektant lub programowo.

Aby uzyskać więcej informacji na temat właściwości, które zestaw w Edytor transformacji grupowania rozmyte okna dialogowego kliknij jedną z następujących tematów:

Aby uzyskać więcej informacji na temat właściwości, które zestaw w Zaawansowanego edytora okno dialogowe pole lub programowo, kliknij jeden z następujących tematów:

Aby uzyskać więcej informacji dotyczących sposobu zestaw właściwości, kliknij jeden z następujących tematów:

Ikona usług Integration Services (mała)Bieżąco z usług integracji

Najnowsze pliki do pobrania, artykuły, próbki i wideo firmy Microsoft, jak również wybranych rozwiązań ze Wspólnoty, odwiedź witrynę Integration Services strona na MSDN i TechNet:

Aby otrzymywać automatyczne powiadomienia dotyczące tych aktualizacji, zasubskrybuj źródła danych RSS dostępne na tej stronie.