Freigeben über


Vorgehensweise: Identifizieren ähnlicher Datenzeilen mithilfe der Transformation für Fuzzygruppierung

Das Paket muss bereits mindestens einen Datenflusstask und eine Quelle einschließen, damit Sie eine Transformation für Fuzzygruppierung hinzufügen und konfigurieren können.

So implementieren Sie eine Transformation für Fuzzygruppierung in einem Datenfluss

  1. Öffnen Sie in Business Intelligence Development Studio das Integration Services-Projekt mit dem gewünschten Paket.

  2. Doppelklicken Sie im Projektmappen-Explorer auf das Paket, um es zu öffnen.

  3. Klicken Sie auf die Registerkarte Datenfluss, und ziehen Sie dann aus dem Fenster Toolbox die Transformation für Fuzzygruppierung auf die Entwurfsoberfläche.

  4. Verbinden Sie die Transformation für Fuzzygruppierung mit dem Datenfluss, indem Sie den Konnektor (der grüne oder rote Pfeil) von der Datenquelle oder einer vorherigen Transformation mit der Maus auf die Transformation für Fuzzygruppierung ziehen.

  5. Doppelklicken Sie auf die Transformation für Fuzzygruppierung.

  6. Wählen Sie im Dialogfeld Transformations-Editor für Fuzzygruppierung auf der Registerkarte Verbindungs-Manager einen OLE DB-Verbindungs-Manager aus, der eine Verbindung mit einer SQL Server-Datenbank herstellt.

    HinweisHinweis

    Für die Transformation muss eine Verbindung mit einer SQL Server-Datenbank vorhanden sein, damit temporäre Tabellen und Indizes erstellt werden können.

  7. Klicken Sie auf die Registerkarte Spalten, und aktivieren Sie in der Liste Verfügbare Eingabespalten die Kontrollkästchen der Eingabespalten, die zum Identifizieren ähnlicher Zeilen im Dataset verwendet werden sollen.

  8. Aktivieren Sie das Kontrollkästchen in der Pass-Through-Spalte, um die Eingabespalten für das Pass-Through an die Transformationsausgabe zu identifizieren. Pass-Through-Spalten werden nicht in die Identifizierung doppelter Zeilen eingeschlossen.

    HinweisHinweis

    Eingabespalten, die zum Gruppieren verwendet werden, werden automatisch als Pass-Through-Spalten ausgewählt. Die Auswahl dieser Spalten kann nicht aufgehoben werden, während sie zum Gruppieren verwendet werden.

  9. Aktualisieren Sie optional die Namen von Ausgabespalten in der Ausgabealias-Spalte.

  10. Aktualisieren Sie optional die Namen von bereinigten Spalten in der Gruppenausgabealias-Spalte.

    HinweisHinweis

    Die Standardnamen von Spalten sind die Namen der Eingabespalten mit dem Suffix "_clean".

  11. Aktualisieren Sie optional den zu verwendenden Übereinstimmungstyp in der Übereinstimmungstyp-Spalte.

    HinweisHinweis

    Mindestens eine Spalte muss die Fuzzyübereinstimmung verwenden.

  12. Geben Sie die minimale Ähnlichkeit von Spalten in der Minimale Ähnlichkeit-Spalte an. Dieser Wert muss zwischen 0 und 1 liegen. Je näher der Wert an 1 liegt, desto ähnlicher müssen die Werte in den Eingabespalten sein, um eine Gruppe zu bilden. Eine minimale Ähnlichkeit von 1 bedeutet eine genaue Übereinstimmung.

  13. Aktualisieren Sie optional die Namen von Ähnlichkeitsspalten in der Ähnlichkeitsausgabealias-Spalte.

  14. Aktualisieren Sie die Werte in der Zahlen-Spalte, um die Behandlung von Zahlen in Datenwerten anzugeben.

  15. Um anzugeben, wie die Transformation die Zeichenfolgendaten in einer Spalte vergleicht, ändern Sie die Standardauswahl von Vergleichsoptionen in der Vergleichsflags-Spalte.

  16. Klicken Sie auf die Registerkarte Erweitert, um die Namen der Spalten zu ändern, die die Transformation der Ausgabe für den eindeutigen Zeilenbezeichner (_key_in), den doppelten Zeilenbezeichner (_key_out) und den Ähnlichkeitswert (_score) hinzufügt.

  17. Passen Sie optional den Schwellenwert für die Ähnlichkeit mithilfe des Schiebereglers an.

  18. Deaktivieren Sie optional die Kontrollkästchen für Tokentrennzeichen, um Trennzeichen in den Daten zu ignorieren.

  19. Klicken Sie auf OK.

  20. Klicken Sie im Menü Datei auf Ausgewählte Elemente speichern, um das aktualisierte Paket zu speichern.