Freigeben über


Konfigurieren von Thesaurusdateien

Aktualisiert: 12. Dezember 2006

Alle in Microsoft SQL Server 2005 enthaltenen Thesaurusdateien sind wie folgt formatiert.

<XML ID="Microsoft Search Thesaurus">

<!--  Commented out
    <thesaurus xmlns="x-schema:tsSchema.xml">
      <diacritics = false/>
        <expansion>
            <sub>Internet Explorer</sub>
            <sub>IE</sub>
            <sub>IE5</sub>
        </expansion>
        <replacement>
            <pat>NT5</pat>
            <pat>W2K</pat>
            <sub>Windows 2000</sub>
        </replacement>
        <expansion>
            <sub>run</sub>
            <sub>jog</sub>
        </expansion>
    </thesaurus>
-->
</XML>

Jede Thesaurusdatei weist einen oder mehrere der folgenden Abschnitte auf:

  • Erweiterungssatz
    Ein Erweiterungssatz enthält eine Gruppe von Synonymen. Diese Synonyme werden im Code durch "Substitutions"-Tags (<sub> und </sub>) identifiziert. Abfragen, die eine Übereinstimmung in einer Substitution enthalten, werden erweitert, um alle weiteren Substitutionen im Erweiterungssatz einzubeziehen.
  • Ersetzungssatz
    Ein Ersetzungssatz enthält ein durch einen Substitutionssatz zu ersetzendes Textmuster. Ein Beispiel dafür finden Sie im Abschnitt "Ersetzungssatz" weiter unten in diesem Thema.

Außerdem enthält die Thesaurusdatei ein <diacritics = false/>-Tag. false gibt an, dass die in den Erweiterungs- und Ersetzungssätzen angegebenen Ausdrücke nicht nach Akzent unterschieden werden. Wenn Sie bei der Suche mit dem Thesaurus Akzente berücksichtigen möchten, ändern Sie dieses Tag in <diacritics = true/>. Angenommen Sie haben in einer Volltextabfrage angegeben, dass das Suchmuster "café" durch ein anderes Muster ersetzt werden soll. Wenn in der Thesaurusdatei nicht nach Akzent unterschieden wird, ersetzt die Volltextsuche die Muster "café" und "cafe". Wenn in der Thesaurusdatei nach Akzent unterschieden wird, ersetzt die Volltextsuche nur das Muster "café". Beachten Sie, dass diese Einstellung nur ein einziges Mal in der Datei vorgenommen werden kann und für alle Suchmuster in der Datei gilt. Diese Einstellung kann nicht für einzelne Muster angegeben werden.

ms345186.note(de-de,SQL.90).gifWichtig:
Wenn Sie Thesaurusdateien mithilfe von Text-Editor-Tools bearbeiten, müssen die Dateien im Unicode-Format gespeichert und Bytereihenfolgemarken (Byte Order Marks, BOM) angegeben werden.

Erweiterungssatz

Jeder Erweiterungssatz ist in ein <expansion>-Tag eingeschlossen. Innerhalb des expansion-Tags geben Sie eine oder mehrere in ein <sub>-Tag eingeschlossene Substitutionen an. Im Erweiterungssatz können Sie eine Gruppe von Substitutionen angeben, die Synonyme zueinander sind.

Sie können beispielsweise den expansion-Abschnitt bearbeiten, um die Substitutionen "writer", "author" und "journalist" als Synonyme zu behandeln. Volltextsuchabfragen, die Übereinstimmungen in einer Substitution enthalten, werden erweitert, um alle weiteren im Erweiterungssatz angegebenen Substitutionen einzubeziehen. Wenn Sie daher im vorherigen Beispiel eine FORMS OF THESAURUS- oder eine FREETEXT-Abfrage nach dem Wort "author" ausführen, gibt die Volltextsuche auch Suchergebnisse zurück, die die Wörter "writer" und "journalist" enthalten.

Der Erweiterungssatzabschnitt für das oben genannte Beispiel würde wie folgt aussehen:

 <expansion>
         <sub>writer</sub>
         <sub>author</sub>
         <sub>journalist</sub>
 </expansion>

Ersetzungssatz

Jeder Ersetzungssatz ist in ein <replacement>-Tag eingeschlossen. Innerhalb eines jeden replacement-Tags können Sie eines oder mehrere in ein <pat>-Tag eingeschlossene Muster angeben. Sie können eine oder mehrere in <sub>-Tags eingeschlossene Substitutionen angeben. Sie können ein durch einen Substitutionssatz zu ersetzendes Muster angeben. Muster und Substitutionen können ein Wort oder eine Wortfolge enthalten.

Angenommen, Sie möchten, dass Abfragen nach "W2K" (das Muster) durch "Windows 2000" oder "XP" (die Substitutionen) ersetzt werden. Wenn Sie eine Volltextabfrage nach "W2K" ausführen, gibt die Volltextsuche nur Suchergebnisse zurück, die "Windows 2000" oder "XP" enthalten. Sie gibt keine Ergebnisse zurück, die "W2K" enthalten. Dies liegt daran, dass das Muster "W2K" durch die Muster "Windows 2000" und "XP" "ersetzt" wurde.

Der Ersetzungssatzabschnitt für das oben genannte Beispiel würde wie folgt aussehen:

 <replacement>
         <pat>W2K</pat>
         <sub>Windows 2000</sub>
         <sub>XP</sub>
 </replacement>

Wenn zwei Ersetzungssätze mit ähnlichen Mustern für die Übereinstimmung verwendet werden, hat der längere der beiden Vorrang. Wenn Sie beispielsweise eine FORMS OF THESAURUS-Abfrage nach "Internet Explorer online community" ausführen und die folgenden Ersetzungssätze haben, hat der "Internet Explorer"-Ersetzungssatz Vorrang vor dem "Internet"-Ersetzungssatz. Die Abfrage wird demzufolge als "IE online community" oder "IE 5 online community" verarbeitet.

<replacement>
         <pat>Internet</pat>
         <sub>intranet</sub>
</replacement>

und

<replacement>
         <pat>Internet Explorer</pat>
         <sub>IE</sub>
         <sub>IE 5</sub>
</replacement>

Siehe auch

Konzepte

Architektur der Volltextsuche
Thesaurus
Volltextsuche

Andere Ressourcen

CONTAINS (Transact-SQL)
FREETEXT (Transact-SQL)
FREETEXTTABLE (Transact-SQL)

Hilfe und Informationen

Informationsquellen für SQL Server 2005

Änderungsverlauf

Version Verlauf

12. Dezember 2006

Geänderter Inhalt:
  • Die Syntax des <diacritics_sensitive>-Tags wurde in <diacritics = false/> korrigiert, und die Erläuterung dieses Tags wurde aktualisiert.
Neuer Inhalt:
  • Es wurde der wichtige Hinweis hinzugefügt, dass Thesaurusdateien im Unicode-Format gespeichert und Bytereihenfolgemarken angegeben werden müssen.

17. Juli 2006

Neuer Inhalt:
  • Bedeutung des <diacritics_sensitive>-Tags wurde verdeutlicht.