Erstellen eines Benutzerwörterbuchs

2023-03-08

GILT FÜR: yes-img-13 2013 yes-img-16 2016 yes-img-19 2019 yes-img-se Subscription Edition no-img-sop SharePoint in Microsoft 365

Ein Benutzerwörterbuch ist eine Datei, die ein Administrator erstellt, um Token anzugeben, die die Wörtertrennung einer bestimmten Sprache zur Indexzeit und zur Abfragezeit als unteilbar behandeln soll. Benutzerwörterbuchdateien werden nicht mit dem Produkt bereitgestellt. Sie müssen ein separates Benutzerwörterbuch für jede Sprache erstellen, für die Sie das Verhalten einer Wörtertrennung ändern möchten.

Hinweis

Ein Benutzerwörterbuch für eine bestimmte Sprache gilt für alle Suchdienst Anwendungen in der Serverfarm.

Inhalt dieses Artikels:

Gründe für die Verwendung eines Benutzerwörterbuchs
Regeln zum Erstellen eines Benutzerwörterbuchs
Erstellen eines Benutzerwörterbuchs
Kopieren des Benutzerwörterbuchs auf jeden Anwendungsserver
Beenden und Neustarten des SharePoint Server-Suchdiensts 14
Ausführen einer vollständigen Durchforstung
Unterstützte Sprachen

Gründe für die Verwendung eines Benutzerwörterbuchs

Um zu wissen, ob Sie über ein Benutzerwörterbuch verfügen müssen und welche Einträge es enthalten soll, müssen Sie das Verhalten von Wörtertrennungen verstehen. Das Indizierungssystem verwendet Wörtertrennungen, um Token zu unterbrechen, wenn es durchforstete Inhalte indiziert, und das Abfrageprozessor verwendet Wörtertrennungen in Abfragen. Wenn ein Benutzerwörterbuch vorhanden ist, das die Sprache und den Dialekt der verwendeten Wörtertrennung unterstützt, sucht das Suchsystem nach dem Wort im Benutzerwörterbuch, bevor es bestimmt, ob eine Wörtertrennung für dieses Wort verwendet werden soll. Wenn das Wort im Benutzerwörterbuch nicht vorhanden ist, führt die Wörtertrennung die üblichen Aktionen aus, was dazu führen kann, dass ein Token in mehrere Token aufgeteilt wird. Wenn das Token im Benutzerwörterbuch vorhanden ist, führt die Wörtertrennung keine Aktionen für dieses Token aus. Die folgenden beiden Beispiele beschreiben das typische Verhalten der Wörtertrennung und wie sich ein Eintrag im Benutzerwörterbuch auf dieses Verhalten auswirken kann.

Eine Wörtertrennung kann das Token "IT&T" unmittelbar vor und nach dem kaufmännischen und -Zeichen (&) unterbrechen, was zu den drei Token "IT", "&" und "T" führt. Wenn sich das Token "IT&T" jedoch im Benutzerwörterbuch der gleichen Sprache wie die verwendete Wörtertrennung befindet, wird dieses Token von der Wörtertrennung nicht unterbrochen (zum Durchforstungszeitpunkt oder zur Abfragezeit). Wenn sich "IT&T" im Benutzerwörterbuch befindet und ein Dokument nicht "IT" oder "T", sondern "IT&T" enthält, gibt eine Abfrage, die "IT" oder "T", aber nicht "IT&T" enthält, dieses Dokument nicht im Resultset zurück.
Begriffe wie Cas-Registrierungsnummern (Chemical Abstracts Service) können von Wörtertrennungen beeinflusst werden. Wörtertrennungen teilen z. B. Zahlen, die vor oder nach einem Bindestrich oder einem anderen Sonderzeichen angezeigt werden, in der Regel vom Rest der Zahl auf. Die CAS-Registrierungsnummer für Sauerstoff lautet beispielsweise 7782-44-7. Nach der Texttrennungsverarbeitung ist diese CAS-Registrierungsnummer in drei Teile unterteilt: die Zahlen 7782, 44 und 7. Durch Das Hinzufügen der CAS-Registrierungsnummern, die in einem Korpus angezeigt werden, zu einem Benutzerwörterbuch wird das Suchsystem anweisen, jede Zahl zu indizieren, ohne sie in Teile aufteilen zu müssen.

Normalisierungen und Thesaurusdateien

Normalisierungen benannter Entitäten, z. B. Datumsnormalisierungen, die normalerweise von Wörtertrennungen angewendet werden, werden nicht auf Begriffe angewendet, die sich in benutzerdefinierten Wörterbüchern befinden. Stattdessen werden alle Begriffe, die sich in benutzerdefinierten Wörterbüchern befinden, als Übereinstimmung behandelt. Dies ist besonders wichtig, wenn Sie Wörter oder Zahlen in einer Thesaurusdatei haben. Wenn z. B. die CAS-Registrierungsnummer 7782-44-7 Teil eines Erweiterungssatzes im Thesaurus ist und die Worttrennung diese Zahl an den Bindestrichen in drei separate Zahlen unterbricht, funktioniert der Erweiterungssatz, zu dem diese Zahl gehört, möglicherweise nicht wie erwartet. In diesem Fall wird das Problem durch Hinzufügen der CAS-Registrierungsnummer 7782-44-7 zum Benutzerwörterbuch der entsprechenden Sprache behoben. Informationen zur Verwendung von Thesaurusdateien finden Sie unter Erstellen und Bereitstellen eines Thesaurus in SharePoint Server.

Regeln zum Erstellen eines Benutzerwörterbuchs

Ein Benutzerwörterbuch ist eine Datei im Unicode-Format. Jeder Eintrag muss sich in einer separaten Zeile befinden, die durch einen Wagenrücklauf (Cr) und einen Zeilenvorschub (LF) getrennt ist. Beachten Sie beim Hinzufügen von Einträgen zu einem Benutzerwörterbuch die folgenden Regeln, um unerwartete Ergebnisse zu vermeiden:

Bei Einträgen wird die Groß-/Kleinschreibung nicht beachtet.
Das Pipezeichen (|) kann nicht verwendet werden.
Leerzeichen können nicht verwendet werden.
Das Nummernzeichen (#) kann nicht am Anfang eines Eintrags verwendet werden, aber es kann innerhalb oder am Ende eines Eintrags verwendet werden.
Mit Ausnahme der oben erwähnten Striche, Nummernzeichen und Leerzeichen sind alle alphanumerischen Zeichen, Interpunktionszeichen, Symbole und Trennzeichen gültig.
Die maximale Länge eines Eintrags beträgt 128 (Unicode)-Zeichen.

Die folgende Tabelle enthält Beispiele für unterstützte und nicht unterstützte Einträge.

Tabelle 1: Beispiele für unterstützte und nicht unterstützte Einträge für Benutzerwörterbuchdateien

Unterstützt	Nicht unterstützt
Dogfood	Hundefutter
3#	#3
For#sale	Für\|Verkauf
ASP.NET
IT-&T
(2-Methoxymethylethoxy)propanol
34590-97-8
C7H1603

Die maximale Anzahl von Einträgen in einem Benutzerwörterbuch beträgt 10.000. Es sind keine Einstellungen zum Ändern dieses Grenzwerts verfügbar. Es wird jedoch empfohlen, dass die Gesamtdateigröße einer Benutzerwörterbuchdatei 2 Gigabyte (GB) nicht überschreitet. In der Praxis wird empfohlen, die Anzahl der Einträge auf einige Tausend zu beschränken.

Erstellen eines Benutzerwörterbuchs

Gehen Sie wie folgt vor, um ein Benutzerwörterbuch zu erstellen.

So erstellen Sie ein Benutzerwörterbuch

Stellen Sie sicher, dass das Benutzerkonto, das für dieses Verfahren verwendet wird, Mitglied der Gruppe Administratoren auf dem lokalen Computer ist.
Melden Sie sich bei einem Durchforstungsserver an.
Öffnen Sie eine neue Datei in einem Text-Editor.

Geben Sie die gewünschten Wörter im Benutzerwörterbuch gemäß den Regeln ein, die weiter oben in diesem Artikel unter Regeln zum Erstellen eines Benutzerwörterbuchs aufgeführt sind.
Klicken Sie im Menü Datei auf Speichern unter.
Wählen Sie in der Liste Dateityp die Option Alle Dateien aus.
Wählen Sie in der Liste Codierung die Option Unicode aus.
Geben Sie im Feld Dateiname den Dateinamen im folgenden Format ein: CustomNNNN.lex, wobei "Custom" eine literale Zeichenfolge ist, NNNNN der vierstellige Hexadezimalcode der Sprache, für die Sie das Benutzerwörterbuch erstellen, und lex ist die Dateinamenerweiterung. Eine Liste der gültigen Dateinamen für unterstützte Sprachen und Dialekte finden Sie weiter unten in diesem Artikel unter Unterstützte Sprachen.
Navigieren Sie in der Liste Speichern in zu dem Ordner, der die Wörtertrennungen enthält. Standardmäßig ist dieser Ordner %ProgramFiles%\Microsoft Office Servers\14.0\Bin für SharePoint Server 2010, %ProgramFiles%\Microsoft Office Servers\15.0\Bin für SharePoint Server 2013 und %ProgramFiles%\Microsoft Office Servers\16.0\Bin für SharePoint Server 2016 und SharePoint Server 2019.

Hinweis

Benutzerwörterbuchdateien können nur verwendet werden, wenn sie in diesem Ordner im lokalen Dateisystem gespeichert sind. Sie können beispielsweise nicht verwendet werden, wenn sie nur auf einer SharePoint-Website gespeichert sind.
Klicken Sie auf Speichern.
Wenn keine anderen Durchforstungsserver oder Abfrageserver in der Farm vorhanden sind, wechseln Sie zu Beenden und Neustarten des SharePoint Server-Suchdiensts 14. Fahren Sie andernfalls mit dem nächsten Verfahren fort, "Kopieren Sie das Benutzerwörterbuch auf jeden Anwendungsserver in der Farm".

Kopieren des Benutzerwörterbuchs auf jeden Anwendungsserver

Auf jedem Anwendungsserver in der Farm muss eine Kopie des Benutzerwörterbuchs vorhanden sein.

So kopieren Sie das Benutzerwörterbuch in jede Anwendung

Vergewissern Sie sich, dass das Benutzerkonto, das dieses Verfahren ausführt, Mitglied der Gruppe Administratoren auf jedem Anwendungsserver (d. h. jedem Durchforstungsserver oder Abfrageserver) in der Farm ist.
Kopieren Sie auf jedem Anwendungsserver in der Farm die neue Benutzerwörterbuchdatei in den Ordner, der die Wörtertrennungen enthält. Standardmäßig ist dieser Ordner %ProgramFiles%\Microsoft Office Servers\14.0\Bin für SharePoint Server 2010, %ProgramFiles%\Microsoft Office Servers\15.0\Bin für SharePoint Server 2013 und %ProgramFiles%\Microsoft Office Servers\16.0\Bin für SharePoint Server 2016 und SharePoint Server 2019.

Hinweis

Benutzerwörterbuchdateien können nur verwendet werden, wenn sie in diesem Ordner im lokalen Dateisystem gespeichert sind. Sie können beispielsweise nicht verwendet werden, wenn sie nur auf einer SharePoint-Website gespeichert sind.

Beenden und Neustarten des SharePoint Server-Suchdiensts 14/15/16 auf jedem Anwendungsserver

Sie müssen den Dienst SharePoint Server Search 14 (für SharePoint Server 2010), SharePoint Server Search 15 (für SharePoint Server 2013) oder SharePoint Server Search 16 (für SharePoint Server 2016 und SharePoint Server 2019) auf jedem Anwendungsserver in der Farm neu starten.

Wichtig

Verwenden Sie nicht die Seite Dienste auf dem Server in der Zentraladministration, um den Dienst zu beenden und zu starten. Dadurch wird der Dienst entfernt und der Index und die zugehörige Konfiguration gelöscht. Führen Sie stattdessen die folgenden Schritte aus.

So beenden und starten Sie den SharePoint Server-Suchdienst 14/15/16 auf jedem Anwendungsserver neu

Stellen Sie sicher, dass das Benutzerkonto, das für dieses Verfahren verwendet wird, Mitglied der Gruppe Administratoren auf dem lokalen Computer ist.
Zeigen Sie im Menü Start auf Alle Programme, zeigen Sie auf Verwaltung, und klicken Sie dann auf Dienste.
Klicken Sie mit der rechten Maustaste auf den Dienst SharePoint Server Search 14 (für SharePoint Server 2010), SharePoint Server Search 15 (für SharePoint Server 2013) oder SharePoint Server Search 16 (für SharePoint Server 2016 und SharePoint Server 2019), und klicken Sie dann auf Eigenschaften. Das Dialogfeld Eigenschaften wird angezeigt.
Klicken Sie auf Anhalten. Wenn der Dienst beendet wurde, klicken Sie auf Start.
Stellen Sie sicher, dass der Starttyp nicht auf Deaktiviert festgelegt ist.
Wiederholen Sie dieses Verfahren für jeden Anwendungsserver (d. h. jeden Durchforstungsserver und jeden Abfrageserver) in der Farm.

Ausführen einer vollständigen Durchforstung

Um das Benutzerwörterbuch auf den Inhaltsindex anzuwenden, müssen Sie eine vollständige Durchforstung des Inhalts ausführen, der die Token enthält, die Sie dem Benutzerwörterbuch hinzugefügt haben. Informationen zum Ausführen einer vollständigen Durchforstung finden Sie unter Verwalten der Durchforstung in SharePoint Server.

Unterstützte Sprachen

In der folgenden Tabelle sind die Sprachen und Dialekte angegeben, für die SharePoint Server 2010 benutzerdefinierte Wörterbücher unterstützt. Sie können kein Benutzerwörterbuch für die sprachneutrale Wörtertrennung erstellen. Die Tabelle enthält den Sprachcodebezeichner (Language Code Identifier, LCID) und den hexadezimalen Sprachcode für jede unterstützte Sprache und jeden unterstützten Dialekt. Die ersten beiden Zahlen im Hexadezimalcode stellen den Dialekt dar, und die letzten beiden Zahlen stellen die Sprache dar. Für Sprachen, die keine separaten Wörtertrennungen für separate Dialekte haben, sind die ersten beiden Zahlen im Hexadezimalcode der Sprache immer Nullen.

Tabelle 2: Unterstützte Sprachen

Sprache/Dialekt	LCID	Hexadezimalcode der Sprache
Arabic	1025	0001
Bengali	1093	0045
Bulgarisch	1026	0002
Katalanisch	1027	0003
Kroatisch	1050	001a
Dänisch	1030	0006
Niederländisch	1043	0013
Englisch	1033	0009
Französisch	1036	000c
Deutsch	1031	0007
Gujarati	1095	0047
Hebräisch	1037	000d
Hindi	1081	0039
Isländisch	1039	000f
Indonesisch	1057	0021
Italienisch	1040	0010
Japanisch	1041	0011
Kannada	1099	004b
Latvian	1062	0026
Litauisch	1063	0027
Malay	1086	003e
Malayalam	1100	004c
Marathi	1102	004e
Norwegian_Bokmaal	1044	0414
Portugiesisch	2070	0816
Portuguese_Braz	1046	0416
Punjabi	1094	0046
Rumänisch	1048	0018
Russisch	1049	0019
Serbian_Cyrillic	3098	0c1a
Serbian_Latin	2074	081a
Slowakisch	1051	001b
Slowenisch	1060	0024
Spanisch	3082	000a
Schwedisch	1053	001d
Tamil	1097	0049
Telugu	1098	004a
Ukrainisch	1058	0022
Urdu	1056	0020
Vietnamesisch	1066	002a

Freigeben über

Erstellen eines Benutzerwörterbuchs

Gründe für die Verwendung eines Benutzerwörterbuchs

Normalisierungen und Thesaurusdateien

Regeln zum Erstellen eines Benutzerwörterbuchs

Erstellen eines Benutzerwörterbuchs

Kopieren des Benutzerwörterbuchs auf jeden Anwendungsserver

Beenden und Neustarten des SharePoint Server-Suchdiensts 14/15/16 auf jedem Anwendungsserver

Ausführen einer vollständigen Durchforstung

Unterstützte Sprachen

Zusätzliche Ressourcen