Freigeben über


Erstellen eines Benutzerwörterbuchs

GILT FÜR:yes-img-132013 yes-img-162016 yes-img-192019 yes-img-seSubscription Edition no-img-sopSharePoint in Microsoft 365

Ein Benutzerwörterbuch ist eine Datei, die ein Administrator erstellt, um Token anzugeben, die die Wörtertrennung einer bestimmten Sprache zur Indexzeit und zur Abfragezeit als unteilbar behandeln soll. Benutzerwörterbuchdateien werden nicht mit dem Produkt bereitgestellt. Sie müssen ein separates Benutzerwörterbuch für jede Sprache erstellen, für die Sie das Verhalten einer Wörtertrennung ändern möchten.

Hinweis

Ein Benutzerwörterbuch für eine bestimmte Sprache gilt für alle Suchdienst Anwendungen in der Serverfarm.

Inhalt dieses Artikels:

  • Gründe für die Verwendung eines Benutzerwörterbuchs

  • Regeln zum Erstellen eines Benutzerwörterbuchs

  • Erstellen eines Benutzerwörterbuchs

  • Kopieren des Benutzerwörterbuchs auf jeden Anwendungsserver

  • Beenden und Neustarten des SharePoint Server-Suchdiensts 14

  • Ausführen einer vollständigen Durchforstung

  • Unterstützte Sprachen

Gründe für die Verwendung eines Benutzerwörterbuchs

Um zu wissen, ob Sie über ein Benutzerwörterbuch verfügen müssen und welche Einträge es enthalten soll, müssen Sie das Verhalten von Wörtertrennungen verstehen. Das Indizierungssystem verwendet Wörtertrennungen, um Token zu unterbrechen, wenn es durchforstete Inhalte indiziert, und das Abfrageprozessor verwendet Wörtertrennungen in Abfragen. Wenn ein Benutzerwörterbuch vorhanden ist, das die Sprache und den Dialekt der verwendeten Wörtertrennung unterstützt, sucht das Suchsystem nach dem Wort im Benutzerwörterbuch, bevor es bestimmt, ob eine Wörtertrennung für dieses Wort verwendet werden soll. Wenn das Wort im Benutzerwörterbuch nicht vorhanden ist, führt die Wörtertrennung die üblichen Aktionen aus, was dazu führen kann, dass ein Token in mehrere Token aufgeteilt wird. Wenn das Token im Benutzerwörterbuch vorhanden ist, führt die Wörtertrennung keine Aktionen für dieses Token aus. Die folgenden beiden Beispiele beschreiben das typische Verhalten der Wörtertrennung und wie sich ein Eintrag im Benutzerwörterbuch auf dieses Verhalten auswirken kann.

  • Eine Wörtertrennung kann das Token "IT&T" unmittelbar vor und nach dem kaufmännischen und -Zeichen (&) unterbrechen, was zu den drei Token "IT", "&" und "T" führt. Wenn sich das Token "IT&T" jedoch im Benutzerwörterbuch der gleichen Sprache wie die verwendete Wörtertrennung befindet, wird dieses Token von der Wörtertrennung nicht unterbrochen (zum Durchforstungszeitpunkt oder zur Abfragezeit). Wenn sich "IT&T" im Benutzerwörterbuch befindet und ein Dokument nicht "IT" oder "T", sondern "IT&T" enthält, gibt eine Abfrage, die "IT" oder "T", aber nicht "IT&T" enthält, dieses Dokument nicht im Resultset zurück.

  • Begriffe wie Cas-Registrierungsnummern (Chemical Abstracts Service) können von Wörtertrennungen beeinflusst werden. Wörtertrennungen teilen z. B. Zahlen, die vor oder nach einem Bindestrich oder einem anderen Sonderzeichen angezeigt werden, in der Regel vom Rest der Zahl auf. Die CAS-Registrierungsnummer für Sauerstoff lautet beispielsweise 7782-44-7. Nach der Texttrennungsverarbeitung ist diese CAS-Registrierungsnummer in drei Teile unterteilt: die Zahlen 7782, 44 und 7. Durch Das Hinzufügen der CAS-Registrierungsnummern, die in einem Korpus angezeigt werden, zu einem Benutzerwörterbuch wird das Suchsystem anweisen, jede Zahl zu indizieren, ohne sie in Teile aufteilen zu müssen.

Normalisierungen und Thesaurusdateien

Normalisierungen benannter Entitäten, z. B. Datumsnormalisierungen, die normalerweise von Wörtertrennungen angewendet werden, werden nicht auf Begriffe angewendet, die sich in benutzerdefinierten Wörterbüchern befinden. Stattdessen werden alle Begriffe, die sich in benutzerdefinierten Wörterbüchern befinden, als Übereinstimmung behandelt. Dies ist besonders wichtig, wenn Sie Wörter oder Zahlen in einer Thesaurusdatei haben. Wenn z. B. die CAS-Registrierungsnummer 7782-44-7 Teil eines Erweiterungssatzes im Thesaurus ist und die Worttrennung diese Zahl an den Bindestrichen in drei separate Zahlen unterbricht, funktioniert der Erweiterungssatz, zu dem diese Zahl gehört, möglicherweise nicht wie erwartet. In diesem Fall wird das Problem durch Hinzufügen der CAS-Registrierungsnummer 7782-44-7 zum Benutzerwörterbuch der entsprechenden Sprache behoben. Informationen zur Verwendung von Thesaurusdateien finden Sie unter Erstellen und Bereitstellen eines Thesaurus in SharePoint Server.

Regeln zum Erstellen eines Benutzerwörterbuchs

Ein Benutzerwörterbuch ist eine Datei im Unicode-Format. Jeder Eintrag muss sich in einer separaten Zeile befinden, die durch einen Wagenrücklauf (Cr) und einen Zeilenvorschub (LF) getrennt ist. Beachten Sie beim Hinzufügen von Einträgen zu einem Benutzerwörterbuch die folgenden Regeln, um unerwartete Ergebnisse zu vermeiden:

  • Bei Einträgen wird die Groß-/Kleinschreibung nicht beachtet.

  • Das Pipezeichen (|) kann nicht verwendet werden.

  • Leerzeichen können nicht verwendet werden.

  • Das Nummernzeichen (#) kann nicht am Anfang eines Eintrags verwendet werden, aber es kann innerhalb oder am Ende eines Eintrags verwendet werden.

  • Mit Ausnahme der oben erwähnten Striche, Nummernzeichen und Leerzeichen sind alle alphanumerischen Zeichen, Interpunktionszeichen, Symbole und Trennzeichen gültig.

  • Die maximale Länge eines Eintrags beträgt 128 (Unicode)-Zeichen.

Die folgende Tabelle enthält Beispiele für unterstützte und nicht unterstützte Einträge.

Tabelle 1: Beispiele für unterstützte und nicht unterstützte Einträge für Benutzerwörterbuchdateien

Unterstützt Nicht unterstützt
Dogfood Hundefutter
3# #3
For#sale Für|Verkauf
ASP.NET
IT-&T
(2-Methoxymethylethoxy)propanol
34590-97-8
C7H1603

Die maximale Anzahl von Einträgen in einem Benutzerwörterbuch beträgt 10.000. Es sind keine Einstellungen zum Ändern dieses Grenzwerts verfügbar. Es wird jedoch empfohlen, dass die Gesamtdateigröße einer Benutzerwörterbuchdatei 2 Gigabyte (GB) nicht überschreitet. In der Praxis wird empfohlen, die Anzahl der Einträge auf einige Tausend zu beschränken.

Erstellen eines Benutzerwörterbuchs

Gehen Sie wie folgt vor, um ein Benutzerwörterbuch zu erstellen.

So erstellen Sie ein Benutzerwörterbuch

  1. Stellen Sie sicher, dass das Benutzerkonto, das für dieses Verfahren verwendet wird, Mitglied der Gruppe Administratoren auf dem lokalen Computer ist.

  2. Melden Sie sich bei einem Durchforstungsserver an.

  3. Öffnen Sie eine neue Datei in einem Text-Editor.

    Geben Sie die gewünschten Wörter im Benutzerwörterbuch gemäß den Regeln ein, die weiter oben in diesem Artikel unter Regeln zum Erstellen eines Benutzerwörterbuchs aufgeführt sind.

  4. Klicken Sie im Menü Datei auf Speichern unter.

  5. Wählen Sie in der Liste Dateityp die Option Alle Dateien aus.

  6. Wählen Sie in der Liste Codierung die Option Unicode aus.

  7. Geben Sie im Feld Dateiname den Dateinamen im folgenden Format ein: CustomNNNN.lex, wobei "Custom" eine literale Zeichenfolge ist, NNNNN der vierstellige Hexadezimalcode der Sprache, für die Sie das Benutzerwörterbuch erstellen, und lex ist die Dateinamenerweiterung. Eine Liste der gültigen Dateinamen für unterstützte Sprachen und Dialekte finden Sie weiter unten in diesem Artikel unter Unterstützte Sprachen.

  8. Navigieren Sie in der Liste Speichern in zu dem Ordner, der die Wörtertrennungen enthält. Standardmäßig ist dieser Ordner %ProgramFiles%\Microsoft Office Servers\14.0\Bin für SharePoint Server 2010, %ProgramFiles%\Microsoft Office Servers\15.0\Bin für SharePoint Server 2013 und %ProgramFiles%\Microsoft Office Servers\16.0\Bin für SharePoint Server 2016 und SharePoint Server 2019.

    Hinweis

    Benutzerwörterbuchdateien können nur verwendet werden, wenn sie in diesem Ordner im lokalen Dateisystem gespeichert sind. Sie können beispielsweise nicht verwendet werden, wenn sie nur auf einer SharePoint-Website gespeichert sind.

  9. Klicken Sie auf Speichern.

  10. Wenn keine anderen Durchforstungsserver oder Abfrageserver in der Farm vorhanden sind, wechseln Sie zu Beenden und Neustarten des SharePoint Server-Suchdiensts 14. Fahren Sie andernfalls mit dem nächsten Verfahren fort, "Kopieren Sie das Benutzerwörterbuch auf jeden Anwendungsserver in der Farm".

Kopieren des Benutzerwörterbuchs auf jeden Anwendungsserver

Auf jedem Anwendungsserver in der Farm muss eine Kopie des Benutzerwörterbuchs vorhanden sein.

So kopieren Sie das Benutzerwörterbuch in jede Anwendung

  1. Vergewissern Sie sich, dass das Benutzerkonto, das dieses Verfahren ausführt, Mitglied der Gruppe Administratoren auf jedem Anwendungsserver (d. h. jedem Durchforstungsserver oder Abfrageserver) in der Farm ist.

  2. Kopieren Sie auf jedem Anwendungsserver in der Farm die neue Benutzerwörterbuchdatei in den Ordner, der die Wörtertrennungen enthält. Standardmäßig ist dieser Ordner %ProgramFiles%\Microsoft Office Servers\14.0\Bin für SharePoint Server 2010, %ProgramFiles%\Microsoft Office Servers\15.0\Bin für SharePoint Server 2013 und %ProgramFiles%\Microsoft Office Servers\16.0\Bin für SharePoint Server 2016 und SharePoint Server 2019.

    Hinweis

    Benutzerwörterbuchdateien können nur verwendet werden, wenn sie in diesem Ordner im lokalen Dateisystem gespeichert sind. Sie können beispielsweise nicht verwendet werden, wenn sie nur auf einer SharePoint-Website gespeichert sind.

Beenden und Neustarten des SharePoint Server-Suchdiensts 14/15/16 auf jedem Anwendungsserver

Sie müssen den Dienst SharePoint Server Search 14 (für SharePoint Server 2010), SharePoint Server Search 15 (für SharePoint Server 2013) oder SharePoint Server Search 16 (für SharePoint Server 2016 und SharePoint Server 2019) auf jedem Anwendungsserver in der Farm neu starten.

Wichtig

Verwenden Sie nicht die Seite Dienste auf dem Server in der Zentraladministration, um den Dienst zu beenden und zu starten. Dadurch wird der Dienst entfernt und der Index und die zugehörige Konfiguration gelöscht. Führen Sie stattdessen die folgenden Schritte aus.

So beenden und starten Sie den SharePoint Server-Suchdienst 14/15/16 auf jedem Anwendungsserver neu

  1. Stellen Sie sicher, dass das Benutzerkonto, das für dieses Verfahren verwendet wird, Mitglied der Gruppe Administratoren auf dem lokalen Computer ist.

  2. Zeigen Sie im Menü Start auf Alle Programme, zeigen Sie auf Verwaltung, und klicken Sie dann auf Dienste.

  3. Klicken Sie mit der rechten Maustaste auf den Dienst SharePoint Server Search 14 (für SharePoint Server 2010), SharePoint Server Search 15 (für SharePoint Server 2013) oder SharePoint Server Search 16 (für SharePoint Server 2016 und SharePoint Server 2019), und klicken Sie dann auf Eigenschaften. Das Dialogfeld Eigenschaften wird angezeigt.

  4. Klicken Sie auf Anhalten. Wenn der Dienst beendet wurde, klicken Sie auf Start.

  5. Stellen Sie sicher, dass der Starttyp nicht auf Deaktiviert festgelegt ist.

  6. Wiederholen Sie dieses Verfahren für jeden Anwendungsserver (d. h. jeden Durchforstungsserver und jeden Abfrageserver) in der Farm.

Ausführen einer vollständigen Durchforstung

Um das Benutzerwörterbuch auf den Inhaltsindex anzuwenden, müssen Sie eine vollständige Durchforstung des Inhalts ausführen, der die Token enthält, die Sie dem Benutzerwörterbuch hinzugefügt haben. Informationen zum Ausführen einer vollständigen Durchforstung finden Sie unter Verwalten der Durchforstung in SharePoint Server.

Unterstützte Sprachen

In der folgenden Tabelle sind die Sprachen und Dialekte angegeben, für die SharePoint Server 2010 benutzerdefinierte Wörterbücher unterstützt. Sie können kein Benutzerwörterbuch für die sprachneutrale Wörtertrennung erstellen. Die Tabelle enthält den Sprachcodebezeichner (Language Code Identifier, LCID) und den hexadezimalen Sprachcode für jede unterstützte Sprache und jeden unterstützten Dialekt. Die ersten beiden Zahlen im Hexadezimalcode stellen den Dialekt dar, und die letzten beiden Zahlen stellen die Sprache dar. Für Sprachen, die keine separaten Wörtertrennungen für separate Dialekte haben, sind die ersten beiden Zahlen im Hexadezimalcode der Sprache immer Nullen.

Tabelle 2: Unterstützte Sprachen

Sprache/Dialekt LCID Hexadezimalcode der Sprache
Arabic 1025 0001
Bengali 1093 0045
Bulgarisch 1026 0002
Katalanisch 1027 0003
Kroatisch 1050 001a
Dänisch 1030 0006
Niederländisch 1043 0013
Englisch 1033 0009
Französisch 1036 000c
Deutsch 1031 0007
Gujarati 1095 0047
Hebräisch 1037 000d
Hindi 1081 0039
Isländisch 1039 000f
Indonesisch 1057 0021
Italienisch 1040 0010
Japanisch 1041 0011
Kannada 1099 004b
Latvian 1062 0026
Litauisch 1063 0027
Malay 1086 003e
Malayalam 1100 004c
Marathi 1102 004e
Norwegian_Bokmaal 1044 0414
Portugiesisch 2070 0816
Portuguese_Braz 1046 0416
Punjabi 1094 0046
Rumänisch 1048 0018
Russisch 1049 0019
Serbian_Cyrillic 3098 0c1a
Serbian_Latin 2074 081a
Slowakisch 1051 001b
Slowenisch 1060 0024
Spanisch 3082 000a
Schwedisch 1053 001d
Tamil 1097 0049
Telugu 1098 004a
Ukrainisch 1058 0022
Urdu 1056 0020
Vietnamesisch 1066 002a