Udostępnij za pośrednictwem


Jak Identyfikacja podobne wiersze danych przy użyciu transformacja grupowanie rozmyte

Aby dodać i skonfigurować transformacja rozmyte grupowanie, pakiet musi być już zawierać co najmniej jeden zadanie przepływ danych ze źródłem.

Aby zaimplementować grupowanie rozmyte transformacja w przepływ danych

  1. W Business Intelligence Development Studio, otwórz Integration Services Projekt, który zawiera pakiet ma.

  2. W programie eksplorator rozwiązań kliknąć dwukrotnie pakiet, aby go otworzyć.

  3. Kliknij przycisk Przepływ danych kartę, a następnie od Przybornik, przeciągnij grupowanie rozmyte transformacja do powierzchni projektu.

  4. Łączenie grupowanie rozmyte transformację dla przepływ danych przez przeciąganie łącznika — czerwoną lub zieloną strzałkę — ze urządzenie źródłowe danych lub poprzednich transformacja do grupowanie rozmyte transformacja.

  5. Kliknij dwukrotnie grupowanie rozmyte transformacja.

  6. W Rozmyty Edytor transformacja grupowanie dialogowym na Menedżer połączeń Menedżer połączeń wybierz OLE DB, który łączy z karcieSQL Server Baza danych.

    Uwaga

    transformacja wymaga połączenia SQL Server Baza danych do utworzenia tabel tymczasowych i indeksów.

  7. Kliknij przycisk Kolumny Karta a Dostępne kolumny wprowadzania listy, zaznacz pole wyboru wejściowy kolumn w celu zidentyfikowania wiersze podobne do danych.

  8. Zaznacz pole wyboru w Przechodzą przez kolumn do zidentyfikowania wprowadzania kolumn, aby przechodzić w wynik transformacja.Kolumny przekazujące nie są uwzględniane w procesie identyfikacji zduplikowane wiersze.

    Uwaga

    Kolumny danych wejściowych, które są używane do grupowanie wybierane są automatycznie jako przekazujące kolumny, a nie mogą one być niezaznaczone, a użyte do grupowanie.

  9. Opcjonalnie można zaktualizować nazwy kolumn wyjściowych Alias danych wyjściowych kolumna.

  10. Optionally, update the names of cleaned columns in the Group OutputAlias column.

    Uwaga

    Domyślne nazwy kolumn są nazwy wejściowe kolumn z sufiksem "_clean".

  11. Opcjonalnie można zaktualizować typ dopasowania do użycia w Typ dopasowania kolumna.

    Uwaga

    Co najmniej jedna kolumna musi być dopasowywanie rozmyte.

  12. Określ poziom podobieństwa minimalne kolumn w Minimalna podobieństw kolumna.Wartość musi być z zakresu od 0 do 1.Im bliżej wartością jest 1, tym bardziej podobne wartości w kolumnach danych wejściowych musi być do utworzenia grupy.Minimalna podobieństwa 1 wskazuje dokładny odpowiednik.

  13. Opcjonalnie można zaktualizować nazwy kolumn podobieństwa Alias wyjście podobieństw kolumna.

  14. Aby określić Obsługa liczb na wartości danych, zaktualizować wartości w Cyfry kolumna.

  15. Aby określić, w jaki sposób transformacja porównuje dane ciąg, kolumna, zmodyfikuj domyślny wybór opcji porównania w Porównanie flagi kolumna.

  16. Kliknij przycisk Zaawansowane kartę, aby zmodyfikować nazwy kolumn, które dodaje transformacja danych wyjściowych dla wiersza unikatowy identyfikator (_key_in), identyfikator zduplikowanych wierszy (_key_out) i wartość podobieństwa (_score).

  17. Opcjonalnie można dopasować próg podobieństwa, przesuwając suwak.

  18. Opcjonalnie wyczyść pole wyboru ogranicznika token ma ignorować ograniczniki w danych.

  19. Kliknij przycisk OK.

  20. Aby zapisać zaktualizowany pakiet, kliknij przycisk Zapisz wybrane elementy on the Plik menu.