Palavras irrelevantes e listas de palavras irrelevantes
Para evitar que os índices de tabela completa fiquem lotados, o SQL Server dispõe de um mecanismo que descarta cadeias de caracteres que ocorrem com freqüência e que não auxiliam nas pesquisas. Essas cadeias de caracteres descartadas são chamadas de palavras irrelevantes (stopwords). Durante a criação do índice, o Mecanismo de Texto Completo omite as palavras irrelevantes do índice de texto completo. Em outras palavras, as consultas de texto completo não pesquisarão palavras irrelevantes.
Importante |
---|
As palavras de ruído do SQL Server 2005 foram substituídas por palavras irrelevantes (stoplist). Quando um banco de dados é atualizado para o SQL Server 2008 de uma versão anterior, os arquivos de palavras de ruído não são mais usados no SQL Server 2008. No entanto, os arquivos de palavras de ruído são armazenados na pasta FTDATA\ FTNoiseThesaurusBak, e você poderá usá-los posteriormente quando atualizar ou criar as listas de palavras irrelevantes correspondentes do SQL Server 2008. Para obter informações sobre como atualizar arquivos de palavras de ruído para listas de palavras irrelevantes, consulte Atualização da pesquisa de texto completo. |
Uma palavra irrelevante pode ser uma palavra com significado em um determinado idioma ou um token sem significado lingüístico. Por exemplo, em inglês, palavras como "a", "and", "is" e "the" não são incluídas no índice de texto completo porque são consideradas inúteis em uma pesquisa.
Embora as palavras irrelevantes sejam ignoradas, o índice de texto completo leva em conta sua posição. Por exemplo, considere a frase "Instructions are applicable to these Adventure Works Cycles models". A tabela a seguir descreve a posição das palavras na frase:
Palavra |
Posição |
---|---|
Instructions |
1 |
are |
2 |
applicable |
3 |
to |
4 |
these |
5 |
Adventure |
6 |
Works |
7 |
Cycles |
8 |
models |
9 |
As palavras irrelevantes "are", "to" e "these", que estão nas posições 2, 4 e 5, são excluídas do índice de texto completo. Contudo, sua informação posicional é mantida, sem afetar a posição das outras palavras da frase.
Listas de palavras irrelevantes
No SQL Server 2008, as palavras irrelevantes são gerenciadas nos bancos de dados por meio de objetos chamados listas de palavras irrelevantes (stoplists). Uma lista de palavras irrelevantes é uma lista que, quando associada a um índice de texto completo, é aplicada às consultas de texto completo desse índice.
Criando uma lista de palavras irrelevantes
Você pode criar uma lista de palavras irrelevantes de qualquer uma destas formas:
Usando a lista de palavras irrelevantes fornecida pelo sistema no banco de dados. O SQL Server é fornecido com uma lista de palavras irrelevantes do sistema que contém as palavras irrelevantes usadas mais comumente para cada idioma com suporte, ou seja, para cada idioma associado a determinados separadores de palavras por padrão. A lista de palavras irrelevantes do sistema contém palavras irrelevantes comuns para todos os idiomas com suporte. Você pode copiar essa lista e personalizar sua cópia adicionando e removendo palavras irrelevantes.
A lista de palavras irrelevantes do sistema é instalada no banco de dados Resource.
Criando sua própria lista de palavras irrelevantes e depois adicionando palavras irrelevantes a ela para qualquer idioma especificado. Você também pode descartar palavras irrelevantes da lista sempre que necessário.
Usando uma lista de palavras irrelevantes personalizada existente de outro banco de dados na instância de servidor atual e, em seguida, adicionando ou descartando palavras irrelevantes conforme necessário.
Importante |
---|
Somente há suporte para CREATE FULLTEXT STOPLIST, ALTER FULLTEXT STOPLIST e DROP FULLTEXT STOPLIST no nível de compatibilidade 100. Nos níveis de compatibilidade 80 e 90, essas instruções não têm suporte. No entanto, em todos os níveis de compatibilidade, a lista de palavras irrelevantes do sistema é associada automaticamente a novos índices de texto completo. |
Criar uma lista de palavras irrelevantes
Adicionar palavras irrelevantes a uma lista de palavras irrelevantes ou descartá-las dela
Descartar uma lista de palavras irrelevantes
Usando uma lista de palavras irrelevantes em consultas
Para usar uma lista de palavras irrelevantes em consultas, é preciso associá-la a um índice de texto completo. Você pode anexar uma lista de palavras irrelevantes a um índice de texto completo ao criá-lo ou pode alterá-lo posteriormente para adicionar uma lista de palavras irrelevantes.
Para criar um índice de texto completo e associar uma lista de palavras irrelevantes a ele
Para associar uma lista de palavras irrelevantes a um índice de texto completo ou desassociá-la dele
Como exibir ou alterar as propriedades de um índice de texto completo (SQL Server Management Studio)
Para suprimir uma mensagem de erro se palavras irrelevantes causarem a falha de uma operação booleana em uma consulta de texto completo
Exibindo listas de palavras irrelevantes e metadados de palavras irrelevantes
Para exibir todas as palavras irrelevantes de uma lista de palavras irrelevantes
Para obter informações sobre todas as listas de palavras irrelevantes do banco de dados atual
Para exibir o resultado da geração de tokens de um separador de palavras, dicionário de sinônimos e combinação de lista de palavras irrelevantes