Criar um dicionário personalizado

APLICA-SE A:yes-img-132013 yes-img-162016 yes-img-192019 yes-img-seSubscription Edition no-img-sopSharePoint no Microsoft 365

Um dicionário personalizado é um ficheiro que um administrador cria para especificar tokens que o separador de palavras de um determinado idioma deve tratar como indivisível no momento do índice e no momento da consulta. Os ficheiros de dicionário personalizados não são fornecidos com o produto. Tem de criar um dicionário personalizado separado para cada idioma para o qual pretende modificar o comportamento de um separador de palavras.

Observação

Um dicionário personalizado para um determinado idioma aplica-se a todas as aplicações serviço Pesquisa no farm de servidores.

Neste artigo:

  • Motivos para usar um dicionário personalizado

  • Regras para criar um dicionário personalizado

  • Criar um dicionário personalizado

  • Copiar o dicionário personalizado para cada servidor de aplicações

  • Parar e reiniciar o serviço SharePoint Server Search 14

  • Execute um rastreamento completo

  • Idiomas compatíveis

Motivos para usar um dicionário personalizado

Para saber se tem de ter um dicionário personalizado e que entradas deve conter, tem de compreender o comportamento dos quebra-palavras. O sistema de indexação utiliza disjuntores de palavras para quebrar tokens quando indexa conteúdo pesquisado e o processador de consultas utiliza disjuntores de palavras em consultas. Em cada caso, se existir um dicionário personalizado que suporte o idioma e o dialeto do separador de palavras que está a ser utilizado, o sistema de pesquisa verifica a palavra no dicionário personalizado antes de determinar se deve utilizar um separador de palavras para essa palavra. Se a palavra não existir no dicionário personalizado, o separador de palavras efetua as ações habituais, o que pode resultar na quebra de um token em vários tokens. Se o token existir no dicionário personalizado, o separador de palavras não efetua quaisquer ações nesse token. Os dois exemplos seguintes descrevem o comportamento típico do disjuntor de palavras e como uma entrada no dicionário personalizado pode afetar esse comportamento.

  • Um separador de palavras pode quebrar o token "IT&T" imediatamente antes e depois do e comercial (&), resultando nos três tokens "IT", "&" e "T". No entanto, se o token "IT&T" estiver no dicionário personalizado do mesmo idioma que o separador de palavras que está a ser utilizado, o separador de palavras não quebra esse token (no momento da pesquisa ou hora da consulta). Se "IT&T" estiver no dicionário personalizado e se um documento não contiver "IT" ou "T", mas contiver "IT&T", uma consulta que contenha "IT" ou "T" mas não "IT&T" não devolverá esse documento no conjunto de resultados.

  • Termos como números de registo do Serviço de Abstrações Químicas (CAS) podem ser afetados por quebras de palavras. Por exemplo, os separadores de palavras normalmente dividem números que aparecem antes ou depois de um hífen ou outro caráter especial do resto do número. Por exemplo, o número do registo CAS para oxigénio é 7782-44-7. Após o processamento do separador de palavras, este número de registo CAS é dividido em três partes: os números 7782, 44 e 7. Adicionar os números de registo CAS que aparecem num corpus a um dicionário personalizado direciona o sistema de pesquisa a indexar cada número sem o dividir em partes.

Normalizações e arquivos de sinônimos

As normalizações de entidades nomeadas, como normalizações de data, normalmente aplicadas por quebras de palavras, não são aplicadas a termos que estejam em dicionários personalizados. Em vez disso, todos os termos que estão em dicionários personalizados são tratados como uma correspondência. Isto é especialmente importante se tiver palavras ou números num ficheiro de dicionário de sinónimos. Por exemplo, se o número de registo cas 7782-44-7 fizer parte de um conjunto de expansão no dicionário de sinónimos e o separador de palavras dividir esse número no hífenes em três números separados, o conjunto de expansão do qual esse número é uma parte poderá não funcionar conforme esperado. Neste caso, adicionar o número de registo CAS 7782-44-7 ao dicionário personalizado do idioma adequado resolve o problema. Para obter informações sobre como utilizar ficheiros de dicionário de sinónimos, consulte Criar e implementar um dicionário de sinónimos no SharePoint Server.

Regras para criar um dicionário personalizado

Um dicionário personalizado é um ficheiro formatado com Unicode. Cada entrada tem de estar numa linha separada, separada por um símbolo de retorno (CR) e alimentação de linha (LF). Quando adicionar entradas a um dicionário personalizado, considere as seguintes regras para evitar resultados inesperados:

  • As entradas não são sensíveis a maiúsculas e minúsculas.

  • Não é possível utilizar o caráter de pipe (|).

  • Não é possível utilizar espaço em branco.

  • O caráter de sinal de número (#) não pode ser utilizado no início de uma entrada, mas pode ser utilizado dentro ou no final de uma entrada.

  • Exceto para os carateres pipe, sinal de número e espaço em branco mencionados anteriormente, todos os carateres alfanuméricos, pontuação, símbolos e carateres de quebra são válidos.

  • O comprimento máximo de uma entrada é 128 caracteres (Unicode).

A tabela a seguir mostra exemplos de entradas com e sem suporte.

Tabela 1 – Exemplos de entradas suportadas e não suportadas para ficheiros de dicionário personalizados

Com suporte Sem suporte
dogfood dog food
3# #3
Para #sale Para|venda
ASP.NET
TI&T
(2-Methoxymethylethoxy)propanol
34590-97-8
C7H1603

O limite máximo para o número de entradas num dicionário personalizado é 10 000. Não existem definições disponíveis para alterar este limite. No entanto, recomendamos que o tamanho total do ficheiro de um dicionário personalizado não exceda 2 gigabytes (GB). Na prática, sugerimos que você limite o número de entradas para a alguns milhares.

Criar um dicionário personalizado

Utilize o procedimento seguinte para criar um dicionário personalizado.

Para criar um dicionário personalizado

  1. Verifique se a conta de usuário realizando este procedimento é um membro do grupo Administradores no computador local.

  2. Inicie sessão num servidor de pesquisa.

  3. Abra um novo ficheiro num editor de texto.

    Escreva as palavras que pretende no dicionário personalizado de acordo com as regras indicadas em Regras para criar um dicionário personalizado anteriormente neste artigo.

  4. No menu Arquivo, clique emSalvar Como.

  5. Na lista Salvar como tipo, selecione Todos os arquivos.

  6. Na lista Codificação, selecione Unicode.

  7. Na caixa Nome do ficheiro, escreva o nome do ficheiro no seguinte formato:NNNN.lex personalizado, em que "Personalizado" é uma cadeia literal, NNNN é o código hexadecimal de quatro dígitos do idioma para o qual está a criar o dicionário personalizado e lex é a extensão de nome de ficheiro. Para obter uma lista de nomes de ficheiro válidos para idiomas e dialetos suportados, consulte idiomas suportados mais à frente neste artigo.

  8. Na lista Guardar em , navegue para a pasta que contém os separadores de palavras. Por predefinição, esta pasta é %ProgramFiles%\Microsoft Office Servers\14.0\Bin para SharePoint Server 2010, %ProgramFiles%\Microsoft Office Servers\15.0\Bin para SharePoint Server 2013 e %ProgramFiles%\Microsoft Office Servers\16.0\Bin para SharePoint Server 2016 e SharePoint Server 2019.

    Observação

    Os ficheiros de dicionário personalizados só podem ser utilizados se estiverem armazenados nesta pasta no sistema de ficheiros local. Não podem ser utilizadas se só estiverem armazenadas num site do SharePoint, por exemplo.

  9. Clique em Salvar.

  10. Se não existirem outros servidores de pesquisa ou servidores de consulta no farm, aceda a Parar e reiniciar o serviço SharePoint Server Search 14. Caso contrário, avance para o procedimento seguinte, "Copiar o dicionário personalizado para cada servidor de aplicações no farm".

Copiar o dicionário personalizado para cada servidor de aplicações

Tem de existir uma cópia do dicionário personalizado em cada servidor de aplicações no farm.

Para copiar o dicionário personalizado para cada aplicação

  1. Verifique se a conta de utilizador que está a efetuar este procedimento é um membro do grupo Administradores em cada servidor de aplicações (ou seja, cada servidor de pesquisa ou servidor de consulta) no farm.

  2. Em cada servidor de aplicações no farm, copie o novo ficheiro de dicionário personalizado para a pasta que contém os separadores de palavras. Por predefinição, esta pasta é %ProgramFiles%\Microsoft Office Servers\14.0\Bin para SharePoint Server 2010, %ProgramFiles%\Microsoft Office Servers\15.0\Bin para SharePoint Server 2013 e %ProgramFiles%\Microsoft Office Servers\16.0\Bin para SharePoint Server 2016 e SharePoint Server 2019.

    Observação

    Os ficheiros de dicionário personalizados só podem ser utilizados se estiverem armazenados nesta pasta no sistema de ficheiros local. Não podem ser utilizadas se só estiverem armazenadas num site do SharePoint, por exemplo.

Parar e reiniciar o serviço de Pesquisa do SharePoint Server 14/15/16 em cada servidor de aplicações

Tem de reiniciar o serviço SharePoint Server Search 14 (para SharePoint Server 2010), SharePoint Server Search 15 (para SharePoint Server 2013) ou SharePoint Server Search 16 (para SharePoint Server 2016 e SharePoint Server 2019) em cada servidor de aplicações no farm.

Importante

Não utilize a página Serviços no Servidor na Administração Central para parar e iniciar o serviço. Ao fazê-lo, remove o serviço e elimina o índice e a configuração associada. Em vez disso, siga estes passos.

Para parar e reiniciar o serviço SharePoint Server Search 14/15/16 em cada servidor de aplicações

  1. Verifique se a conta de usuário realizando este procedimento é um membro do grupo Administradores no computador local.

  2. No menu Iniciar, aponte para Todos os Programas e para Ferramentas Administrativas e clique em Serviços.

  3. Clique com o botão direito do rato no serviço SharePoint Server Search 14 (para SharePoint Server 2010), SharePoint Server Search 15 (para SharePoint Server 2013) ou SharePoint Server Search 16 (para SharePoint Server 2016 e SharePoint Server 2019) e, em seguida, clique em Propriedades. É apresentada a caixa de diálogo Propriedades .

  4. Clique em Parar. Quando o serviço parar, clique em Iniciar.

  5. Certifique-se de que o Tipo de arranque não está definido como Desativado.

  6. Repita este procedimento para cada servidor de aplicações (ou seja, cada servidor de pesquisa e cada servidor de consulta) no farm.

Execute um rastreamento completo

Para aplicar o dicionário personalizado ao índice de conteúdos, tem de efetuar uma pesquisa completa do conteúdo que contém os tokens que adicionou ao dicionário personalizado. Para obter informações sobre como realizar uma pesquisa completa, consulte Gerir a pesquisa no SharePoint Server.

Idiomas compatíveis

A tabela seguinte indica os idiomas e dialetos para os quais o SharePoint Server 2010 suporta dicionários personalizados. Não é possível criar um dicionário personalizado para o separador de palavras com neutralidade de idioma. A tabela inclui o identificador do código de idioma (LCID) e o código hexadecimal de linguagem para cada idioma e dialeto suportados. Os dois primeiros números no código hexadecimal representam o dialeto e os dois últimos números representam o idioma. Para idiomas que não têm separadores de palavras para dialetos separados, os dois primeiros números no código hexadecimal da linguagem são sempre zeros.

Tabela 2 - Idiomas suportados

Idioma/dialeto LCID Código hexadecimal de linguagem
Árabe 1025 0001
Bengali 1093 0045
Bulgarian 1026 0002
Catalão 1027 0003
Croatian 1050 001a
Dinamarquês 1030 0006
Holandês 1043 0013
Inglês 1033 0009
Francês 1036 000c
Alemão 1031 0007
Gujarati 1095 0047
Hebraico 1037 000d
Híndi 1081 0039
Islandês 1039 000f
Indonésio 1057 0021
Italiano 1040 0010
Japonês 1041 0011
Kannada 1099 004b
Latvian 1062 0026
Lithuanian 1063 0027
Malay 1086 003e
Malaiala 1100 004c
Marata 1102 004e
Norwegian_Bokmaal 1044 0414
Português 2070 0816
Portuguese_Braz 1046 0416
Punjabi 1094 0046
Romeno 1048 0018
Russo 1049 0019
Serbian_Cyrillic 3098 0c1a
Serbian_Latin 2074 081a
Slovak 1051 001b
Esloveno 1060 0024
Espanhol 3082 000a
Sueco 1053 001d
Tamil 1097 0049
Telugu 1098 004a
Ucraniano 1058 0022
Urdu 1056 0020
Vietnamese 1066 002a