Konfigurieren der linguistischen Komponenten für die Volltextsuche
Ab SQL Server 2008 unterstützt die Volltextsuche beinahe 50 unterschiedliche Sprachen, wie z. B. Englisch, Spanisch, Chinesisch, Japanisch, Arabisch, Bengali und Hindi. Eine vollständige Liste der unterstützten Volltextsprachen finden Sie unter sys.fulltext_languages (Transact-SQL). Jede der Spalten im Volltextindex ist einem Microsoft Windows-Gebietsschemabezeichner (LCID) zugeordnet, der auf eine von der Volltextsuche unterstützte Sprache verweist. Beispielsweise steht LCID 1033 für US-Englisch und LCID 2057 für britisches Englisch. SQL Server stellt für jede unterstützte Volltextsprache linguistische Komponenten bereit, die die Indizierung und die Abfrage der gespeicherten Volltextdaten der jeweiligen Sprache ermöglichen.
Zu den sprachspezifischen Komponenten gehören u. a. eine Wörtertrennung und eine Wortstammerkennung. Die Wörtertrennung findet Wortgrenzen anhand der lexikalischen Regeln einer Sprache (Wörtertrennung). Jede Wörtertrennung ist einer Wortstammerkennung zugeordnet, die die Verben der jeweiligen Sprache konjugiert. Weitere Informationen finden Sie unter Wörtertrennung und Wortstammerkennung.
Zusätzlich wird beginnend mit SQL Server 2008 eine Systemstoppliste bereitgestellt, die einen grundlegenden Satz von Stoppwörtern enthält (auch bekannt als Füllwörter). Ein Stoppwort ist ein Wort, das der Suche nicht hilft und bei Volltextabfragen ignoriert wird. Im deutschen Gebietsschema werden beispielsweise Wörter wie "ein", "und", "ist" und "der/die/das" als Stoppwörter betrachtet. I. d. R. müssen Sie eine oder mehrere Thesaurusdateien und Stopplisten konfigurieren. Weitere Informationen finden Sie unter Stoppwörter und Stopplisten.
SQL Server installiert auch eine Thesaurusdatei für jede Volltextsprache und zusätzlich eine globale Thesaurusdatei. Die installierten Thesaurusdateien sind im Wesentlichen leer, aber Sie können die Dateien bearbeiten und Synonyme für eine bestimmte Sprache oder ein Geschäftsszenario definieren. Indem Sie einen Thesaurus entwickeln, der genau auf Ihre Volltextdaten abgestimmt ist, können Sie den Bereich der Volltextabfragen für diese Daten effektiv erweitern. Weitere Informationen finden Sie unter Thesauruskonfiguration.
Die Indizierung eines Dokuments in einer Spalte mit dem Datentyp varbinary, varbinary(max), image oder xml erfordert zusätzliche Verarbeitungsschritte durch den Filter. Der Filter muss für den Dokumenttyp (.doc, .pdf, .xls, .xml usw.) spezifisch sein. Weitere Informationen finden Sie unter Filter für die Volltextsuche.
Hinweis |
---|
Wörtertrennungen (auch Wortstammerkennungen) und Filter werden im Filterdaemon-Hostprozess (fdhost.exe) ausgeführt. Informationen zu diesem Prozess finden Sie unter Architektur der Volltextsuche. |
Siehe auch