Transformation für Ausdruckssuche
Die Transformation für Ausdruckssuche vergleicht aus Text in einer Transformationseingabespalte extrahierte Ausdrücke mit Ausdrücken in einer Verweistabelle. Anschließend wird gezählt, wie häufig ein Ausdruck in der Nachschlagetabelle im Eingabedataset vorkommt. Dieser Wert wird zusammen mit dem Ausdruck aus der Verweistabelle in Spalten in der Transformationsausgabe geschrieben. Mit dieser Transformation können Sie eine benutzerdefinierte Kennwortliste basierend auf dem Eingabetext erstellen, einschließlich Worthäufigkeitsstatistiken.
Bevor die Transformation für Ausdruckssuche eine Suche ausführt, werden Wörter aus dem Text in eine Eingabespalte extrahiert. Hierbei wird die gleiche Methode wie bei der Transformation für Ausdrucksextrahierung verwendet:
Der Text wird in Sätze unterteilt.
Die Sätze werden in Wörter unterteilt.
Die Wörter werden normalisiert.
Um die Suche nach Ausdrücken weiter anzupassen, können Sie für die Transformation für Ausdruckssuche konfigurieren, dass eine Suche mit Unterscheidung nach Groß-/Kleinschreibung ausgeführt wird.
Die Ausdruckssuche führt eine Suche aus und gibt einen Wert mithilfe der folgenden Regeln zurück:
Falls für die Transformation eine Suche mit Unterscheidung nach Groß-/Kleinschreibung konfiguriert ist, werden Übereinstimmungen mit unterschiedlicher Groß-/Kleinschreibung verworfen. Beispielsweise werden student und STUDENT als separate Wörter behandelt.
Hinweis Ein klein geschriebenes Wort kann mit einem Wort übereinstimmen, das am Satzanfang groß geschrieben wird. Beispielsweise ist der Vergleich von student und Student erfolgreich, wenn Student das erste Wort im Satz ist.
Wenn eine Pluralform des Nomens oder des nominalen Ausdrucks in der Verweistabelle vorhanden ist, findet die Suche nur die Pluralform des Nomens oder des nominalen Ausdrucks als Übereinstimmung. Beispielsweise würden alle Instanzen von students separat von den Instanzen von student gezählt.
Wenn nur die Singularform des Worts in der Verweistabelle gefunden wird, sind die Singularform und die Pluralform des Worts oder Satzes Übereinstimmungen mit der Singularform. Wenn beispielsweise die Nachschlagetabelle student enthält und die Transformation die Wörter student und students findet, würden beide Wörter als Übereinstimmung für den Suchausdruck student gezählt.
Wenn der Text in der Eingabespalte ein lemmatisierter nominaler Ausdruck ist, ist nur das letzte Wort des nominalen Ausdrucks von der Normalisierung betroffen. Die lemmatisierte Version von doctors appointments lautet beispielsweise doctors appointment.
Wenn ein Suchelement Ausdrücke enthält, die sich im Verweissatz überlappen (d. h. ein Unterausdruck ist in mehreren Verweisdatensätzen zu finden), gibt die Transformation für Ausdruckssuche nur ein Suchergebnis zurück. Das folgende Beispiel zeigt das Ergebnis für den Fall, dass ein Suchelement einen sich überlappenden Unterausdruck enthält. In diesem Fall ist Windows der überlappende Unterausdruck, der sich in zwei Verweisausdrücken findet. Die Transformation gibt jedoch keine zwei Ergebnisse, sondern nur einen Verweisausdruck zurück: Microsoft Windows. Der zweite Verweisausdruck, Windows XP Home Edition SP1,, wird nicht zurückgegeben.
Element |
Wert |
---|---|
Eingabeausdruck |
Microsoft Windows XP Home Edition SP |
Verweisausdrücke |
Microsoft Windows, Windows XP Home Edition SP1 |
Ausgabe |
Microsoft Windows |
Die Transformation für Ausdruckssuche kann Nomen und nominale Ausdrücke vergleichen, die Sonderzeichen enthalten, und die Daten in der Verweistabelle können diese Zeichen enthalten. Es handelt sich um die folgenden Sonderzeichen: %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, " und '.
Die Transformation für Ausdruckssuche kann nur eine Spalte vom Datentyp DT_WSTR oder DT_NTEXT verwenden. Wenn eine Spalte Text enthält, aber keinen dieser Datentypen aufweist, kann die Transformation für Datenkonvertierung dem Datenfluss eine Spalte vom Datentyp DT_WSTR oder DT_NTEXT hinzufügen und die Spaltenwerte in die neue Spalte kopieren. Die Ausgabe von der Transformation für Datenkonvertierung kann dann als Eingabe für die Transformation für Ausdruckssuche verwendet werden. Weitere Informationen finden Sie unter Transformation für Datenkonvertierung.
Die Eingabespalte der Transformation für Ausdruckssuche enthält dieInputColumnType-Eigenschaft, die auf die Verwendung der Spalte hinweist. InputColumnType kann die folgenden Werte enthalten:
Der Wert 0 zeigt an, dass die Spalte nur an die Ausgabe übergeben und nicht in der Suche verwendet wird.
Der Wert 1 zeigt an, dass die Spalte nur in der Suche verwendet wird.
Der Wert 2 zeigt an, dass die Spalte an die Ausgabe übergeben und auch in der Suche verwendet wird.
Transformationsausgabespalten, deren InputColumnType-Eigenschaft auf 0 oder 2 festgelegt ist, umfassen die CustomLineageID-Eigenschaft für eine Spalte, die den Herkunftsbezeichner enthält, der einer Spalte durch einen Upstreamdatenfluss-Komponenten zugewiesen wird.
Die Transformation für Ausdruckssuche fügt der Transformationsausgabe zwei Spalten hinzu, die standardmäßig Term und Frequency heißen. Term enthält einen Ausdruck aus der Nachschlagetabelle, und Frequency enthält die Angabe, wie häufig der Ausdruck in der Verweistabelle im Eingabedataset vorkommt. Diese Spalten beinhalten keine CustomLineageID-Eigenschaft.
Die Nachschlagetabelle muss eine Tabelle in einer der Datenbanken von SQL Server 2000 oder SQL Server oder einer Access-Datenbank sein. Wenn die Ausgabe der Transformation für Ausdrucksextrahierung in einer Tabelle gespeichert wird, kann diese Tabelle als Verweistabelle verwendet werden, andere Tabellen können allerdings ebenfalls verwendet werden. Text in Flatfiles, Excel-Arbeitsmappen oder sonstige Quellen müssen in eine SQL Server-Datenbank oder eine Access-Datenbank importiert werden, bevor die Transformation für Ausdruckssuche verwendet werden kann.
Die Transformation für Ausdruckssuche verwendet eine separate OLE DB-Verbindung, um eine Verbindung mit der Verweistabelle herzustellen. Weitere Informationen finden Sie unter OLE DB-Verbindungs-Manager.
Die Transformation für Ausdruckssuche arbeitet im vollständigen Zwischenspeicherungsmodus. Zur Laufzeit liest die Transformation für Ausdruckssuche die Ausdrücke aus der Verweistabelle und speichert sie im privaten Arbeitsspeicher, bevor Transformationseingabezeilen verarbeitet werden.
Da sich die Ausdrücke in einer Eingabespalte wiederholen können, weist die Ausgabe der Transformation für Ausdruckssuche in der Regel mehr Zeilen als die Transformationseingabe auf.
Diese Transformation weist je eine Eingabe und Ausgabe auf. Fehlerausgaben werden nicht unterstützt.
Konfigurieren der Transformation für Ausdruckssuche
Eigenschaften können Sie mit dem SSIS-Designer oder programmgesteuert festlegen.
Klicken Sie auf eines der folgenden Themen, um weitere Informationen zu den Eigenschaften zu erhalten, die Sie im Dialogfeld Transformations-Editor für Ausdruckssuche festlegen können:
Transformations-Editor für Ausdruckssuche (Registerkarte Verweistabelle)
Transformations-Editor für Ausdruckssuche (Registerkarte Ausdruckssuche)
Transformations-Editor für Ausdruckssuche (Registerkarte Erweitert)
Klicken Sie auf eines der folgenden Themen, um weitere Informationen zu den Eigenschaften zu erhalten, die Sie im Dialogfeld Erweiterter Editor oder programmgesteuert festlegen können:
Weitere Informationen zum Festlegen von Eigenschaften finden Sie unter Vorgehensweise: Festlegen der Eigenschaften einer Datenflusskomponente.
|