Rozmyty transformacja wyszukiwania
Wyszukiwanie rozmyte transformacja przeprowadza czyszczenie zadania, takie jak standaryzacja danych, usuwanie danych oraz zapewnienie brakujące wartości danych.
Uwaga
Aby uzyskać bardziej szczegółowe informacje na temat transformacja Wyszukiwanie rozmyte, w tym wydajność i ograniczenia ilości pamięci zobacz oficjalny dokument Rozmyty wyszukiwanie i grupowanie rozmyte usług integracja programu SQL Server 2005.
Różni transformacja Wyszukiwanie rozmyte się od transformacja wyszukiwanie w jego użycie z dopasowywanie rozmyte.Transformacja wyszukiwania używa łączyć równoważne zlokalizować pasujących rekordów w tabela referencyjna.Zwraca dokładny odpowiednik lub żadne z tabela referencyjna.Z kolei używa przekształcenie Wyszukiwanie rozmyte dopasowywanie rozmyte zwraca bliskich odpowiedników z tabela referencyjna.
transformacja Wyszukiwanie rozmyte poniżej często transformacja wyszukiwania w pakiecie przepływ danych.Po pierwsze transformacja wyszukiwanie próbuje znaleźć dokładny odpowiednik.Jeśli synchronizacja nie powiedzie się, transformacja Wyszukiwanie rozmyte zawiera bliskich odpowiedników z tabela referencyjna.
transformacja musi mieć dostęp do urządzenie źródłowe danych odwołanie, które zawiera wartości, które są używane do czyszczenia i rozszerzyć danych wejściowych.Odwołanie do urządzenie źródłowe danych musi być w tabela SQL Server 2000 bazy danych lub nowszego. Dopasowanie między wartością kolumna danych wejściowych i wartości z tabela referencyjna może być dokładne dopasowanie lub niewyraźny dopasowania.transformacja wymaga jednak co najmniej jedno dopasowanie kolumn do skonfigurowania dla dopasowywanie rozmyte.Jeśli chcesz używać, tylko dokładne dopasowanie, należy użyć transformacja wyszukiwanie.
Wynikiem tej transformacja jest jeden wejściowych i wyjściowych w jeden.
Tylko dane wejściowe kolumny z DT_WSTR i DT_STR typy danych można używać w dopasowywanie rozmyte. Dokładne dopasowanie, można użyć dowolnego typu danych DTS z wyjątkiem DT_TEXT, DT_NTEXT, a DT_IMAGE. Aby uzyskać więcej informacji zobaczTypy danych usług integracja.Kolumny, które uczestniczą w łączyć między dane wejściowe i odwołanie tabela musi mieć typ danych zgodny.For example, it is valid to join a column with the DTS DT_WSTR data type to a column with the SQL Servernvarchar data type, but invalid to join a column with the DT_WSTR data type to a column with the int data type.
Wynikiem tej transformacja można dostosować, określając maksymalną ilość pamięci, algorytm porównania wierszy i buforowanie indeksy i tabele odwołań, korzystającej z przekształceń.
Ilość pamięci, która korzysta z transformacja Wyszukiwanie rozmyte można tak skonfigurować, ustawiając MaxMemoryUsage Właściwość niestandardowa. Można określić liczbę megabajtów (MB) lub użycia wartości 0, co pozwala transformacja za pomocą dynamicznych kwotę na podstawie jego potrzeb i pamięci fizycznej dostępnej pamięci.The MaxMemoryUsage custom właściwość can be updated by a właściwość wyrażenie when the pakiet is loaded. Aby uzyskać więcej informacji zobacz Integracja usług wyrażenie odwołania, Za pomocą wyrażenia właściwość w pakietach, a Właściwości niestandardowe transformacja.
Kontrolowanie zachowania dopasowywanie rozmyte
Wyszukiwanie rozmyte transformacja zawiera trzy funkcje dostosowywania wykonuje wyszukiwania: Maksymalna liczba zwracanych na wiersz danych wejściowych, token ograniczników i progi podobieństwa odpowiedników.
transformacja zwraca zero lub więcej odpowiedników aż liczba odpowiedników określony.Określanie maksymalnej liczby odpowiedników nie gwarantuje to, że transformacja zwraca wartość maksymalnej liczby odpowiedników; zapewnia tylko, że transformacja co najwyżej zwraca ten numer odpowiada.Jeśli ustawisz maksymalnej liczby odpowiedników na wartość większą niż 1, danych wyjściowych transformacja może zawierać więcej niż jeden wiersz na wyszukiwanie, a niektóre wiersze mogą być duplikatami.
transformacja udostępnia domyślny zestaw ograniczników umożliwia tokenize danych, ale można dodać token ograniczników stosownie do potrzeb danych.The Delimiters właściwość contains the default delimiters. tokenizacja ma istotne znaczenie, ponieważ określa ona jednostek w danych, które są porównywane ze sobą.
Wartości progowe podobieństwa zestaw na poziomie składnika oraz łączyć.Próg łączyć poziom podobieństwa jest dostępna tylko podczas transformacja rozmyty dopasowania między kolumnami w danych wejściowych i tabela referencyjna.Podobieństwa zakres wynosi od 0 do 1.Bliżej 1 wartość progu wynosi, bardziej przypominające wierszy i kolumn muszą być w celu zakwalifikowania jako duplikaty.Określony próg podobieństwa ustawiając MinSimilarity właściwość na poziomie składnika oraz łączyć. Do zaspokojenia podobieństwa, który jest określony poziom składnika, wszystkie wiersze, musi mieć podobieństwa we wszystkie dopasowania, która jest większa niż lub równa próg podobieństwa, który jest określony poziom składnika.Oznacza to nie można określić bardzo zbliżona poziom składnika, chyba że jednakowo ścisłej zgodności poziom wiersza lub łączyć.
Każdy dopasowania zawiera wynik podobieństwa i do uzyskania oceny w przedziale ufności.Wynik podobieństw jest matematycznych miara textural podobieństwa między rekord wejściowy i rekord, który zwraca Wyszukiwanie rozmyte transformacja z tabela referencyjna.Wynik ufności jest miarą tego jak prawdopodobne jest, na konkretną wartość jest najlepszym między dopasowań, można znaleźć w tabela referencyjna.Wynik zaufania przypisany do rekordu, zależy od innych pasujące rekordy są zwracane.Na przykład dopasowywanie St. and Saint zwraca wynik podobieństwa niski, niezależnie od innych dopasowań.Jeśli Saint tylko odpowiednika, zwracana, wynik ufności jest wysoki.Jeśli oba Saint and St. pojawiają się w tabela referencyjna, zaufanie St. jest wysoki i zaufanie Saint jest niska.Jednak wysoki podobieństwa nie może oznaczać wysokiej zaufania.Na przykład, jeśli są wyszukiwane wartości Rozdział 4, zwracane wyniki Rozdział 1, Rozdział 2, and Rozdział 3 o wyniku wysokiej podobieństwa, ale do uzyskania oceny w przedziale ufności niski, ponieważ jest niejasne które wyników jest najbardziej odpowiedni.
Wynik podobieństw jest reprezentowana przez wartość dziesiętna z zakresu od 0 do 1, jeżeli do uzyskania oceny w przedziale od 1 podobieństwa oznacza dokładne dopasowanie między wartością kolumna danych wejściowych i wartości z tabela referencyjna.Wynik zaufania, a także wartość dziesiętną między 0 i 1 wskazuje zaufania do dopasowania.Jeśli nie można używać znaleziono, wyniki podobieństwa i zaufanie 0 są przypisywane do wiersza i kolumny wyjściowe, kopiowane z tabela referencyjna będą zawierać wartości null.
Czasami Wyszukiwanie rozmyte może nie zlokalizować odpowiedniego dopasowania w tabela referencyjna.Taka sytuacja może wystąpić, jeśli wyraz jednym, krótki jest wartością początkową, który jest używany w wyszukiwaniu.Na przykład HELO nie jest takie samo z wartość powitania tabela referencyjna, gdy nie inne tokeny znajdują się w tej kolumnie lub inne kolumna w wierszu.
Kolumn wynik transformacja dołączyć kolumny wejściowych, które są oznaczone jako kolumny przekazującej, wybranych kolumn w tabela wyszukiwania i następujących dodatkowych kolumn:
_Similarity, kolumna, która opisuje podobieństwa między wartościami w kolumnach danych wejściowych i odwołania.
_Confidence, kolumna, która opisuje jakość dopasowania.
transformacja używa połączenia do SQL Server Baza danych do utworzenia tabel tymczasowych, używający rozmyty algorytm dopasowania.
Uruchamianie transformacja Wyszukiwanie rozmyte
Pakiet po raz pierwszy uruchomi transformacja, transformacja kopiuje z tabela referencyjna, dodaje klucz z danych typu Liczba całkowita do nowej tabeli i tworzy indeks kolumna klucza.Następnie transformacja tworzy indeks, o nazwie indeksem odpowiednika na kopię tabela referencyjna.Indeks dopasowania przechowuje wyniki tokenizing wartości w kolumnach danych wejściowych transformacja, a następnie transformacja używa tokeny w operacji wyszukiwania.Indeks zgodności jest tabelą w SQL Server 2000 bazy danych lub nowszego.
Jeżeli pakiet jest uruchomiony ponownie, transformacja może Użyj istniejący indeks dopasowania, albo utworzyć nowy indeks.Jeżeli w tabela odniesienia jest statyczny, pakiet uniknąć potencjalnie drogie proces przebudowywanie indeksu dla sesji powtarzania czyszczenia danych.Jeśli wybierzesz istniejący indeks, indeks jest tworzony pierwszy czas wykonywana przez pakiet.Więcej niż jednej transformacji Wyszukiwanie rozmyte korzystania z tej samej tabela referencyjna, mogą wszystkie używać ten sam indeks.Aby ponownie użyć indeksu, operacje wyszukiwania muszą być takie same; wyszukiwania musi używać tej samej kolumny.Można nadać nazwę indeksu i wybierać połączenie z SQL Server Baza danych, które zapisuje indeksu.
transformacja zapisuje indeksu dopasowania, automatycznie można obsługiwać indeksu dopasowania.Oznacza to, że każdej aktualizacji rekordu w tabela referencyjna indeks dopasowania jest również aktualizowany.Utrzymywanie indeksu dopasowania może skrócić czas przetwarzania, ponieważ indeks nie musi być ponownie po uruchomieniu tego pakiet.Można określić, jak transformacja zarządza indeksu dopasowania.
W poniższej tabela opisano opcje dopasowania indeksu.
Opcja |
Description |
---|---|
GenerateAndMaintainNewIndex |
Utworzyć nowy indeks, zapisz go i zachować go.transformacja instaluje wyzwalaczy w tabela referencyjna do tabela referencyjna i tabelę indeksu zsynchronizowane. |
GenerateAndPersistNewIndex |
Utworzyć nowy indeks i zapisz go, ale nie obsługują. |
GenerateNewIndex |
Utworzyć nowy indeks, ale nie zostaną zapisane. |
ReuseExistingIndex |
Ponownie użyć istniejącego indeksu. |
Konserwacja Dopasuj indeks tabela
The GenerateAndMaintainNewIndex option installs triggers on the tabela referencyjna to keep the match index table and the tabela referencyjna synchronized.Jeśli trzeba usunąć wyzwalacz zainstalowany, należy uruchomić sp_FuzzyLookupTableMaintenanceUnInstall procedura przechowywana, a następnie podaj nazwę określoną w MatchIndexName Właściwość jako wartość parametru wejściowego.
Nie należy usuwać Tabela utrzymywana dopasowania indeksu przed uruchomieniem sp_FuzzyLookupTableMaintenanceUnInstall procedura przechowywana.Tabela indeksu dopasowania jest usuwana, wyzwalacze w tabela referencyjna nie będzie wykonywał poprawnie.Wszystkie kolejne aktualizacje do tabela referencyjna nie powiedzie się, dopóki ręcznie usunąć wyzwalacze w tabela referencyjna.
Polecenia SQL OBCINANIA tabela nie wywoływać DELETE wyzwalaczy.Użycie polecenia OBCINANIA TABLE w tabela referencyjna tabela referencyjna i indeks dopasowania nie będą synchronizowane i transformacja Wyszukiwanie rozmyte nie powiedzie się.Podczas gdy wyzwalaczy, które utrzymują dopasowania tabeli indeksu są zainstalowane w tabela referencyjna, należy użyć polecenia SQL DELETE zamiast polecenia OBCINANIA TABLE.
Uwaga
Po wybraniu Utrzymanie przechowywanych indeksu on the tabela referencyjna Karta Rozmyty Edytor transformacja wyszukiwania, transformacja używają zarządzanej procedur przechowywanych do utrzymywania indeksu.Tych procedur przechowywanych zarządzanych za pomocą wspólnych funkcji integracja środowiska wykonawczego (CLR) języka w SQL Server 2008. Domyślnie CLR integracja SQL Server 2008 nie jest włączona. Aby użyć Utrzymanie przechowywanych indeksu funkcjonalności, należy włączyć integracja środowiska CLR.Aby uzyskać więcej informacji zobaczWłączanie CLR integracja.
Ponieważ Utrzymanie przechowywanych indeksu opcja wymaga środowiska CLR, integracja, ta funkcja działa tylko po zaznaczeniu tabela referencyjna w wystąpieniu SQL Server 2005 lub SQL Server 2008 Jeśli jest włączona integracji środowiska CLR. Indeks nie może być obsługiwany na wystąpienie SQL Server 2000.
Porównanie wierszy
Po skonfigurowaniu transformacja Wyszukiwanie rozmyte, można określić algorytm porównania, korzystającej z przekształceń zlokalizować pasujących rekordów w tabela referencyjna.Jeśli użytkownik zestaw Exhaustive Właściwość True, transformacja porównuje każdego wiersza w danych wejściowych do każdego wiersza w tabela referencyjna. Ten algorytm porównania może generować dokładniejsze wyniki, ale jest prawdopodobne transformacja wykonać wolniej, chyba że liczba wierszy z tabela referencyjna jest mała.Jeśli Exhaustive Właściwość jest ustawiona na wartość True, cały tabela referencyjna jest ładowany do pamięci. Aby uniknąć problemów z wydajnością, zaleca się zestaw Exhaustive Właściwość True Podczas tylko pakiet rozwoju.
Jeśli Exhaustive Właściwość jest zestaw do False, transformacja rozmyte wyszukiwanie zwraca tylko dopasowań, mających co najmniej jeden token indeksowanych lub ciąg podrzędny (podciąg nosi nazwę q g) wspólne z rekordu danych wejściowych.Aby zmaksymalizować wydajność wyszukiwań, tylko podzbiór tokenów w każdym z wierszy w tabela jest indeksowany w indeksie odwróconą struktury, Wyszukiwanie rozmyte transformacja używa do lokalizowania dopasowania.Podczas wprowadzania danych jest niewielka, zestaw Exhaustive Aby True Aby uniknąć Brak dopasowań, dla których nie wspólne tokeny tabela indeksu.
Buforowanie indeksy i spisy odwołania
Po skonfigurowaniu transformacja Wyszukiwanie rozmyte można określić, czy transformacja częściowo buforuje indeksu i tabela referencyjna w pamięci przed transformacja powoduje jego pracy.Jeśli użytkownik zestaw WarmCaches Właściwość True, indeksu i tabela referencyjna są ładowane do pamięci. Jeśli dane wejściowe ma wiele wierszy, ustawienie WarmCaches Właściwość True można zwiększyć wydajność transformacja. W przypadku małej liczby wierszy danych wejściowych ustawienie WarmCaches Właściwość False można przyspieszyć ponowne użycie dużych indeksu.
Tymczasowe tabele oraz indeksy
W czasie wykonywania, Wyszukiwanie rozmyte transformacja tworzy tymczasowe obiektów, takich jak tabele oraz indeksy, w SQL Server Baza danych, która łączy się z transformacja. Rozmiar tych tabel tymczasowych i indeksów jest proporcjonalna do liczby wierszy i tokenów w tabela referencyjna i liczbę tokenów tworzący transformacja Wyszukiwanie rozmyte; dlatego ich może potencjalnie zużywa znaczną ilość miejsca na dysku.transformacja również kwerendy tych tabel tymczasowych.Dlatego należy rozważyć nawiązywanie transformacja Wyszukiwanie rozmyte wystąpienie innych niż produkcji SQL Server Baza danych, szczególnie wtedy, gdy serwer produkcyjny ma ograniczone dostępne miejsce na dysku.
Może zwiększyć wydajność tej transformacja, jeśli tabel i indeksów używa znajdują się na komputerze lokalnym.Jeśli odwołanie tabela, Wyszukiwanie rozmyte transformacja zastosowań znajduje się na serwerze produkcyjnym, należy wziąć pod uwagę kopiowanie tabela na serwer produkcyjny nie i konfigurowanie Wyszukiwanie rozmyte transformacja dostępu do kopii.W ten sposób można zapobiec kwerendy wyszukiwania używające zasobów na serwerze produkcyjnym.In addition, if the Fuzzy Lookup transformation maintains the match index—that is, if MatchIndexOptionsis set to GenerateAndMaintainNewIndex—the transformation may lock the reference table for the duration of the data cleaning operation and prevent other users and applications from accessing the table.
Konfigurowanie przekształcania Wyszukiwanie rozmyte
zestaw właściwości za pomocą SSIS Projektant lub programowo.
Aby uzyskać więcej informacji na temat właściwości, które zestaw w Rozmyty Edytor transformacja wyszukiwania okna dialogowego kliknij jedną z następujących tematów:
Edytor transformacja rozmyty wyszukiwania (karta Tabela odwołanie)
Rozmyty Edytor transformacja wyszukiwania (karta Zaawansowane)
Aby uzyskać więcej informacji na temat właściwości, które zestaw w Zaawansowany edytor okna dialogowego pole lub programowo, kliknij jedną z następujących tematów:
Aby uzyskać więcej informacji na temat ustawiania właściwości, zobacz Jak Ustawianie właściwości składnik przepływu danych.
|
Historia zmian
Microsoft Learning |
---|
|