Udostępnij za pośrednictwem


Full-Text Indexing and Querying Process

Składnik indeksowania przeszukiwanie pełnego tekstu jest odpowiedzialny za zapełnianie początkowego indeksu całego tekstu i kolejnych aktualizacji tego indeksu, po modyfikacji danych w tabelach indeksowanych pełnego tekstu.

Proces indeksowania pełnego tekstu

Po zainicjowaniu pełnego tekstu zapełnianie (znane również jako przeszukiwanie) Aparat Full-Text umieszcza dużych partii danych do pamięci i powiadamia hosta demon filtru.Filtry hosta i word dzieli dane i konwertuje przekonwertowane dane do listy wyrazów odwrócony.Następnie wyszukiwanie pełnotekstowe ściąga przekonwertowane dane z listy słów, przetwarza dane, aby usunąć stopwords i będzie się powtarzał listy wyrazów dla partia do jednego lub kilku indeksów odwrócony.

Podczas indeksowania danych przechowywanych w varbinary(max) lub image kolumna, filtru, która implementuje Interfejs IFilter interfejsu, fragment tekstu, oparte na format pliku danych (na przykład, Microsoft Program Word). W niektórych przypadkach wymagane składniki filtru varbinary(max), lub image dane, które mają być zapisywane w folderze filterdata zamiast zostanie przesunięta do pamięci.

Jako część przetwarzania zebrane dane są przekazywane za pośrednictwem dzielącego, aby podzielić tekst na poszczególnych tokeny lub słowa kluczowe.Język używany w tokenizacja jest określana poziom kolumna lub może zostać zidentyfikowany w ciągu varbinary(max), image, lub xml dane przez składnik filtru.

Mogą być wykonywane dodatkowego przetwarzania, aby usunąć stopwords i chcemy normalizować tokeny przed są przechowywane w indeksie pełnego tekstu lub fragmentu indeksu.

Po zakończeniu zapełnianie, proces scalania końcowego zostanie wywołany, które scala fragmenty indeksu razem w jednym głównym indeks pełnotekstowy.W efekcie kwerendy lepszą wydajność, ponieważ tylko indeks główny musi być kierowane kwerendy, a nie liczba fragmentów indeksu i lepiej Punktacja statystyki mogą być używane do klasyfikacji istotności.

Uwaga

Scalanie wzorca może być intensywnie we/wy, ponieważ duże ilości danych musi być zapisany i przeczytać w przypadku scalania fragmenty indeksu, chociaż nie blokuje przychodzące kwerendy.Ponadto wzorzec scalanie dużej ilości danych można utworzyć długo działających transakcji, opóźnienia obcinania dziennik transakcji w punkcie kontrolnym.W takim wypadku dziennik transakcji może być znacznie rosną w pełni model odzyskiwanie.Zgodnie z zaleceniami dotyczącymi upewnij się, że Twój dziennik transakcji zawiera wystarczająco dużo miejsca dla transakcji długim przed reorganizacji duży indeks pełnotekstowy w bazie danych, która wykorzystuje model pełnego odzyskiwanie.Aby uzyskać więcej informacji zobaczManaging the Size of the Transaction Log File.

Podczas badania proces pełnego tekstu

Procesor kwerend przekazuje pełnego tekstu części kwerendy do aparatu pełny tekst w celu przetworzenia.Aparat Full-Text wykonuje dzielenia wyrazów i, opcjonalnie, tezaurus expansions wynikające i przetwarzanie stopword (wyraz pomijalny).Następnie pełnego tekstu części kwerendy są reprezentowane w postaci operatorów SQL, przede wszystkim jako przesyłania strumieniowego wycenione tabela funkcje (STVFs).Podczas wykonywania kwerendy te STVFs dostępu odwróconą indeks tak, aby pobrać prawidłowych wyniki.Wyniki są albo zwracane do klient w tym momencie lub dalej są przetwarzane przed zwróceniem do klient.