Udostępnij za pośrednictwem


Konfiguracja tezaurusa

W SQL Server, pełnego tekstu kwerendy można wyszukać synonimy warunki określone przez użytkownika, korzystając z tezaurusa. A SQL Serverthesaurus defines a set of synonyms for a specific language.Administratorzy systemu może zdefiniować dwa rodzaje synonimy: zestawy rozszerzające i zestawów zastępczych. Przy opracowywaniu tezaurusa, dostosowane do danych pełnego tekstu, można skutecznie rozszerzyć zakres kwerendy pełnotekstowy dla tych danych.Dopasowywanie tezaurusa występuje tylko w przypadku kwerendy CONTAINS i CONTAINSTABLE, określające klauzula THESAURUS FORMSOF oraz kwerendy FREETEXT i FREETEXTABLE.

Aby kwerendy wyszukiwania pełnotekstowego dla wystąpienie serwera można wyszukać synonimy w danym języku, należy najpierw zdefiniować mapowania tezaurusa (synonimy) dla tego języka.Każdy tezaurusa trzeba ręcznie skonfigurować do definiowania następujących czynności:

  • Ustawianie znaków diakrytycznych

    Dla danej tezaurusa wszystkie wzorce wyszukiwania są poufne lub niewrażliwe do znaków diakrytycznych, takich jak (tylda**~**), znaku akcent (´), or umlaut (¨) (to znaczy Akcent wielkość liter or Akcent niewrażliwe).Załóżmy na przykład, można określić wzorzec "café" wymienić na inne wzorce zapytanie pełnotekstowe.Jeśli akcentu niewrażliwe tezaurusa, przeszukiwanie pełnego tekstu zastępuje wzorców "café" i "cafe".Jeżeli tezaurus jest akcentów, przeszukiwanie pełnego tekstu zastępuje tylko "café" wzorzec.Domyślnie tezaurusa jest niewrażliwe akcentu.

    Uwaga

    Aby uzyskać informacje na temat znaków diakrytycznych zobacz Oznacz diakrytycznych w encyklopedii Encarta MSN.

  • Zestaw rozszerzeń

    Zestaw rozszerzający zawiera grupy takie jak "" autor","autor"i"journalist"synonimów, które zostały zastąpione dla siebie zapytanie pełnotekstowe.Kwerendy zawierające dopasowania dla wszelkich synonim w zestaw rozszerzający pozostaną rozwinięte, aby objąć wszystkie inne synonim zestaw rozszerzeń.

    Aby uzyskać więcej informacji zobacz "" XML struktura z rozszerzenia Ustawianie,"w dalszej części tego tematu.

  • Zestaw zastępczy

    Zestaw zastępczy zawiera wzorca tekstowego wymienić na zestaw podstawiania.Aby zapoznać się z przykładem zobacz sekcję "XML struktura z a zastępowanie zestaw" w dalszej części tego tematu.

Uwaga

Ograniczenia i zalecenia dotyczące plik tezaurusa zobacz Jak Edytowanie pliku tezaurusa (@@).

SQL Server udostępnia zestaw plików tezaurusa XML, jeden dla każdego obsługiwanego języka.Pliki te są przede wszystkim puste.Zawierają one tylko najwyższego poziom XML strukturę która jest wspólne dla wszystkich SQL Server tezaurusy i tezaurusa próbki się komentarz.

W tym temacie zawarto informacje pomocne w realizacji tego zadania w następujący sposób:

  • Początkowa zawartość plików tezaurusa

  • Lokalizacja plików tezaurusa

  • W jaki sposób pliki tezaurusa użyj kwerendy

  • Opis struktury pliku tezaurusa

  • Praca z plików tezaurusa

Początkowa zawartość plików tezaurusa

Pliki tezaurusa, które są zwalniane z SQL Server 2008 zawiera wszystkie następujący kod XML:

<XML ID="Microsoft Search Thesaurus">

<!--  Commented out

    <thesaurus xmlns="x-schema:tsSchema.xml">
<diacritics_sensitive>0</diacritics_sensitive>
        <expansion>
            <sub>Internet Explorer</sub>
            <sub>IE</sub>
            <sub>IE5</sub>
        </expansion>
        <replacement>
            <pat>NT5</pat>
            <pat>W2K</pat>
            <sub>Windows 2000</sub>
        </replacement>
        <expansion>
            <sub>run</sub>
            <sub>jog</sub>
        </expansion>
    </thesaurus>
-->
</XML>

[Do góry]

Lokalizacja plików tezaurusa

Domyślna lokalizacja plików tezaurusa jest:

SQL_Server_install_pathSQL Server\MSSQL10.MSSQLSERVER\MSSQL\FTDATA\ \Microsoft

Ta lokalizacja domyślna zawiera następujące pliki:

  • Pliki tezaurusa specyficzne dla języka

    Podczas instalacji pliki tezaurusa puste są instalowane w powyższej lokalizacji.Oddzielny plik jest tworzony dla każdego obsługiwanego języka.Pliki te można dostosować, administrator systemu.

    Domyślne nazwy plików o wykorzystaniu plików tezaurusa następującego formatu:

    ‘ ts ’ + <dwuliterowego język skrótu> + "XML"

    Nazwa pliku tezaurusa dla danego języka jest określona w rejestrze w następującej wartości HKEY_LOCAL_MACHINE\Software\Microsoft\Microsoft SQL Server\<Nazwa wystąpienie>\MSSearch\<język abbrev>.

  • Plik tezaurusa globalne

    Pusty globalnego pliku tezaurusa, tsGlobal.xml.

Można zmienić lokalizację i nazwy pliku tezaurusa, zmieniając jego klucz rejestru.Dla każdego języka w następującej wartości rejestru określono lokalizację pliku tezaurusa:

HKLM/oprogramowania/Microsoft/Microsoft SQL Server /<Nazwa obiektu>/MSSearch/język /<Skrót nazwy języka>/ TsaurusFile

Język neutralny z LCID 0 odpowiada plik tezaurusa globalne.Wartość tę można zmienić, tylko Administratorzy.

[Do góry]

W jaki sposób pliki tezaurusa użyj kwerendy

Kwerendy tezaurusa używa zarówno tezaurusa specyficzne dla języków, jak i globalnej tezaurusa.Najpierw kwerendy odwołuje się do pliku określonego języka i ładuje go do przetwarzania (o ile nie jest już załadowany).Kwerenda jest rozwinięty dołączyć synonimy specyficzne dla języka, określony przez zestaw rozszerzeń i reguł zestawu zastępczego w pliku tezaurusa.Następujące kroki są następnie powtarzane dla globalnych tezaurusa.Jednak jeśli termin jest już częścią odpowiednika w pliku tezaurusa określonego języka, termin jest nieodpowiednia do dopasowania w globalnej tezaurusa.

[Do góry]

Opis struktury pliku tezaurusa

Każdy plik tezaurusa definiuje kontener XML, którego nazwa jest Microsoft Search Thesaurus, a co komentarz, <!-- … -->, zawierający tezaurusa próbki. Tezaurus jest zdefiniowany w <Słownik wyrazów bliskoznacznych> element, który zawiera przykłady elementów podrzędność, definiujących znaków diakrytycznych, ustawianie, zestawy rozszerzające i zastępowania ustawia w następujący sposób:

  • Struktura XML z ustawieniem diakrytycznych

    Ustawienie znaków diakrytycznych tezaurusa jest określony w jednym <diacritics_sensitive> element. Ten element zawiera formanty w następujący sposób motywem czułość, wartość:

    Ustawianie znaków diakrytycznych

    Wartość

    XML

    Akcent niewrażliwe

    0

    <diacritics_sensitive>0</diacritics_sensitive>

    Akcent wielkość liter

    1

    <diacritics_sensitive>1</diacritics_sensitive>

    Uwaga

    To ustawienie można zastosować tylko jeden raz w pliku i jest stosowana do wszystkich wzorców wyszukiwania w pliku.To ustawienie nie może być określone dla poszczególnych typów.

  • Struktura XML z zestaw rozszerzający

    Każdy zestaw rozszerzeń jest ujęty w <rozszerzenia> element. W ramach tego elementu można określić jeden lub kilka elementów zastępczych w <podrzędne> element. zestaw rozszerzeń można określić grupy elementów zastępczych, które są synonimami od siebie.

    For example, you can edit the expansion section to treat the substitutions "writer", "author", and "journalist" as synonyms.full-text search queries that contain matches in one substitution are expanded to include all other substitutions specified in the expansion set.W związku z tym w poprzednim przykładzie, po wybraniu opcji generowania kwerendy FREETEXT wyrazu "" autor"lub z postaci TEZAURUSA przeszukiwanie pełnego tekstu zwraca także wyniki wyszukiwania zawierające wyrazy"autor"i"journalist".

    Jest to rozszerzenie jakie zestaw sekcja będzie wyglądać w powyższym przykładzie:

     <expansion>
             <sub>writer</sub>
             <sub>author</sub>
             <sub>journalist</sub>
     </expansion>
    
  • Struktura XML z zestaw zastępczy

    Każdy zestaw zastępczy jest ujęty w <zastąpienie> element. W ramach tego elementu można określić jeden lub kilka wzorców w <Po> element i zero lub kilka elementów zastępczych w <podrzędne> elementy, jeden na synonim. Można określić wzorzec wymienić na zestaw podstawiania.Desenie i podstawienia może zawierać słowo lub sekwencję słów.Jeśli nie ma żadnych podstawienia określone dla wzorca, ma ona wpływu usuwania deseń z kwerendy użytkownika.

    Na przykład załóżmy, że ma być kwerendy "W2K", deseń, zastępuje się "System Windows 2000" lub "XP" podstawienia.Po uruchomieniu zapytanie pełnotekstowe dla "W2K „ przeszukiwanie pełnego tekstu zwraca tylko wyniki wyszukiwania zawierające"System Windows 2000"lub""XP".To nie zwraca wyniki zawierające "W2K".Dzieje się tak, ponieważ została deseń "W2K", "" przez wzorców „ Windows 2000 zastępuje"i""XP".

    Jest to, co zastąpienie ustawienia sekcji mają wygląd w powyższym przykładzie:

     <replacement>
             <pat>W2K</pat>
             <sub>Windows 2000</sub>
             <sub>XP</sub>
     </replacement>
    

    Jeśli masz dwóch zestawów zastępczych z podobnymi deseniami filtrowanego dłużej dwóch ma wyższy priorytet.Na przykład jeśli uruchomisz kwerendę postaci Z THESAURUS "Społeczności online programu Internet Explorer", ale masz następujących zestawów zastępczych, zestaw zastępczy „ Internet Explorer „ ma wyższy priorytet niż zestaw zastępczy "Internet".Kwerendy w związku z tym będą przetwarzane jako "Społeczności internetowych programu Internet EXPLORER" lub "" IE 5 internetowej Wspólnoty".

    <replacement>
             <pat>Internet</pat>
             <sub>intranet</sub>
    </replacement>
    

    i

    <replacement>
             <pat>Internet Explorer</pat>
             <sub>IE</sub>
             <sub>IE 5</sub>
    </replacement>
    

[Do góry]

Praca z plikami tezaurusa

Aby edytować plik tezaurusa

Aby załadować plik tezaurusa zaktualizowane

Aby wyświetlić wynik tokenizacja kombinacji dzielenie, tezaurus i stoplist wyrazu