Creare un dizionario personalizzato

SI APPLICA A:yes-img-132013 yes-img-162016 yes-img-192019 yes-img-seSubscription Edition no-img-sopSharePoint in Microsoft 365

Un dizionario personalizzato è un file creato da un amministratore per specificare i token che il word breaker di una determinata lingua deve considerare indivisibile in fase di indice e in fase di query. I file di dizionario personalizzati non vengono forniti con il prodotto. È necessario creare un dizionario personalizzato separato per ogni lingua per cui si vuole modificare il comportamento di un word breaker.

Nota

Un dizionario personalizzato per una determinata lingua si applica a tutte le applicazioni servizio di ricerca nella server farm.

Contenuto dell'articolo:

  • Motivi per utilizzare un dizionario personalizzato

  • Regole per la creazione di un dizionario personalizzato

  • Creare un dizionario personalizzato

  • Copiare il dizionario personalizzato in ogni server applicazioni

  • Arrestare e riavviare il servizio Ricerca di SharePoint Server 14

  • Eseguire una ricerca per indicizzazione completa

  • Lingue supportate

Motivi per utilizzare un dizionario personalizzato

Per sapere se è necessario avere un dizionario personalizzato e quali voci devono contenere, è necessario comprendere il comportamento dei word breaker. Il sistema di indicizzazione usa word breaker per interrompere i token quando indicizza il contenuto sottoposto a ricerca per indicizzazione e l'elaboratore di query usa word breaker nelle query. In ogni caso, se esiste un dizionario personalizzato che supporta la lingua e il dialetto del word breaker usato, il sistema di ricerca controlla la parola nel dizionario personalizzato prima di determinare se usare un word breaker per tale parola. Se la parola non esiste nel dizionario personalizzato, il word breaker esegue le azioni consuete, il che potrebbe causare l'interruzione di un token in più token. Se il token esiste nel dizionario personalizzato, il word breaker non esegue alcuna azione su tale token. I due esempi seguenti descrivono il comportamento tipico del word breaker e il modo in cui una voce nel dizionario personalizzato può influire su tale comportamento.

  • Un word breaker potrebbe interrompere il token "IT&T" immediatamente prima e dopo la e commerciale (&), generando i tre token "IT", "&" e "T". Tuttavia, se il token "IT&T" si trova nel dizionario personalizzato della stessa lingua del word breaker usato, il word breaker non interrompe tale token (in fase di ricerca per indicizzazione o di query). Se "IT&T" si trova nel dizionario personalizzato e se un documento non contiene "IT" o "T", ma contiene "IT&T", una query che contiene "IT" o "T" ma non "IT&T" non restituisce tale documento nel set di risultati.

  • Termini come i numeri di registro cas (Chemical Abstracts Service) possono essere interessati dai word breaker. Ad esempio, i word breaker in genere dividono i numeri visualizzati prima o dopo un trattino o un altro carattere speciale dal resto del numero. Ad esempio, il numero del registro CAS per l'ossigeno è 7782-44-7. Dopo l'elaborazione del word-breaker, questo numero del Registro di sistema CAS viene suddiviso in tre parti: i numeri 7782, 44 e 7. L'aggiunta dei numeri del Registro di sistema CAS visualizzati in un corpus a un dizionario personalizzato indica al sistema di ricerca di indicizzare ogni numero senza suddividerlo in parti.

Normalizzazioni e file del Thesaurus

Le normalizzazioni con entità denominate, ad esempio le normalizzazioni di data, applicate in genere dai word breaker, non vengono applicate ai termini che si trovano nei dizionari personalizzati. Al contrario, tutti i termini inclusi nei dizionari personalizzati vengono considerati come una corrispondenza. Ciò è particolarmente importante se si dispone di parole o numeri in un file del thesaurus. Ad esempio, se il numero del Registro di sistema CAS 7782-44-7 fa parte di un set di espansione nel thesaurus e il word breaker suddivide tale numero ai trattini in tre numeri separati, il set di espansione di cui tale numero è una parte potrebbe non funzionare come previsto. In questo caso, l'aggiunta del numero del registro CAS 7782-44-7 al dizionario personalizzato della lingua appropriata risolve il problema. Per informazioni su come usare i file del thesaurus, vedere Creare e distribuire un thesaurus in SharePoint Server.

Regole per la creazione di un dizionario personalizzato

Un dizionario personalizzato è un file in formato Unicode. Ogni voce deve trovarsi su una riga separata, separata da un ritorno a capo (CR) e da un avanzamento riga (LF). Quando si aggiungono voci a un dizionario personalizzato, prendere in considerazione le regole seguenti per evitare risultati imprevisti:

  • Le voci non fanno distinzione tra maiuscole e minuscole.

  • Non è possibile utilizzare il carattere di pipe (|).

  • Non è possibile usare lo spazio vuoto.

  • Il carattere del segno di numero (#) non può essere utilizzato all'inizio di una voce, ma può essere usato all'interno o alla fine di una voce.

  • Ad eccezione dei caratteri pipe, number sign e white space indicati in precedenza, tutti i caratteri alfanumerici, la punteggiatura, i simboli e i caratteri di interruzione sono validi.

  • La lunghezza massima di una voce è di 128 caratteri Unicode.

Nella tabella seguente sono illustrati alcuni esempi di voci supportate e non supportate.

Tabella 1: esempi di voci supportate e non supportate per i file di dizionario personalizzati

Supportato Non supportata
dogfood fine settimana
3# #3
For#sale Per|vendita
ASP.NET
IT&T
(2-Methoxymetilethoxy)propanol
34590-97-8
C7H1603

Il limite massimo per il numero di voci in un dizionario personalizzato è 10.000. Non sono disponibili impostazioni per modificare questo limite. Tuttavia, è consigliabile che le dimensioni totali di un file dizionario personalizzato non superino i 2 gigabyte (GB). In pratica, si suggerisce di limitare il numero di voci a qualche migliaia.

Creare un dizionario personalizzato

Utilizzare la procedura seguente per creare un dizionario personalizzato.

Per creare un dizionario personalizzato

  1. Verificare che l'account utente utilizzato per eseguire la procedura sia membro del gruppo Administrators sul computer locale.

  2. Accedere a un server di ricerca per indicizzazione.

  3. Aprire un nuovo file in un editor di testo.

    Digitare le parole desiderate nel dizionario personalizzato in base alle regole indicate in Regole per la creazione di un dizionario personalizzato in precedenza in questo articolo.

  4. Scegliere Salva con nome dal menu File.

  5. Nella casella Salva come fare clic su Tutti i file.

  6. Nell'elenco Codifica selezionare Unicode.

  7. Nella casella Nome file digitare il nome del file nel formato seguente:Custom NNNN.lex, dove "Custom" è una stringa letterale, NNNN è il codice esadecimale a quattro cifre della lingua per cui si sta creando il dizionario personalizzato e lex è l'estensione del nome file. Per un elenco di nomi di file validi per lingue e dialetti supportati, vedere Lingue supportate più avanti in questo articolo.

  8. Nell'elenco Salva in passare alla cartella che contiene i word breaker. Per impostazione predefinita, questa cartella è %ProgramFiles%\Microsoft Office Servers\14.0\Bin per SharePoint Server 2010, %ProgramFiles%\Microsoft Office Servers\15.0\Bin per SharePoint Server 2013 e %ProgramFiles%\Microsoft Office Servers\16.0\Bin per SharePoint Server 2016 e SharePoint Server 2019.

    Nota

    I file di dizionario personalizzati possono essere usati solo se sono archiviati in questa cartella nel file system locale. Non possono essere usati se sono archiviati solo in un sito di SharePoint, ad esempio.

  9. Fare clic su Salva.

  10. Se nella farm non sono presenti altri server di ricerca per indicizzazione o server di query, passare a Arresta e riavviare il servizio Ricerca di SharePoint Server 14. In caso contrario, passare alla procedura successiva, "Copiare il dizionario personalizzato in ogni server applicazioni nella farm".

Copiare il dizionario personalizzato in ogni server applicazioni

Deve essere presente una copia del dizionario personalizzato in ogni server applicazioni nella farm.

Per copiare il dizionario personalizzato in ogni applicazione

  1. Verificare che l'account utente che esegue questa procedura sia membro del gruppo Administrators in ogni server applicazioni (ovvero ogni server di ricerca per indicizzazione o server di query) nella farm.

  2. In ogni server applicazioni della farm copiare il nuovo file dizionario personalizzato nella cartella contenente i word breaker. Per impostazione predefinita, questa cartella è %ProgramFiles%\Microsoft Office Servers\14.0\Bin per SharePoint Server 2010, %ProgramFiles%\Microsoft Office Servers\15.0\Bin per SharePoint Server 2013 e %ProgramFiles%\Microsoft Office Servers\16.0\Bin per SharePoint Server 2016 e SharePoint Server 2019.

    Nota

    I file di dizionario personalizzati possono essere usati solo se sono archiviati in questa cartella nel file system locale. Non possono essere usati se sono archiviati solo in un sito di SharePoint, ad esempio.

Arrestare e riavviare il servizio Ricerca di SharePoint Server 14/15/16 in ogni server applicazioni

È necessario riavviare il servizio SharePoint Server Search 14 (per SharePoint Server 2010), SharePoint Server Search 15 (per SharePoint Server 2013) o SharePoint Server Search 16 (per SharePoint Server 2016 e SharePoint Server 2019) in ogni server applicazioni della farm.

Importante

Non usare la pagina Servizi nel server in Amministrazione centrale per arrestare e avviare il servizio. In questo modo, il servizio viene rimosso ed eliminato l'indice e la configurazione associata. Seguire invece questa procedura.

Per arrestare e riavviare il servizio Ricerca di SharePoint Server 14/15/16 in ogni server applicazioni

  1. Verificare che l'account utente utilizzato per eseguire la procedura sia membro del gruppo Administrators sul computer locale.

  2. Fare clic sul pulsante Start, scegliere Tutti i programmi, Strumenti di amministrazione e quindi Servizi.

  3. Fare clic con il pulsante destro del mouse sul servizio SharePoint Server Search 14 (per SharePoint Server 2010), SharePoint Server Search 15 (per SharePoint Server 2013) o SharePoint Server Search 16 (per SharePoint Server 2016 e SharePoint Server 2019) e quindi scegliere Proprietà. Verrà visualizzata la finestra di dialogo Proprietà .

  4. Fare clic su Arresta. Dopo l'interruzione del servizio, fare clic su Avvia.

  5. Assicurarsi che il tipo di avvio non sia impostato su Disabilitato.

  6. Ripetere questa procedura per ogni server applicazioni (ovvero ogni server di ricerca per indicizzazione e ogni server di query) nella farm.

Eseguire una ricerca per indicizzazione completa

Per applicare il dizionario personalizzato all'indice di contenuto, è necessario eseguire una ricerca per indicizzazione completa del contenuto contenente i token aggiunti al dizionario personalizzato. Per informazioni sull'esecuzione di una ricerca per indicizzazione completa, vedere Gestire la ricerca per indicizzazione in SharePoint Server.

Lingue supportate

La tabella seguente indica le lingue e i dialetti per i quali SharePoint Server 2010 supporta dizionari personalizzati. Non è possibile creare un dizionario personalizzato per il word breaker indipendente dalla lingua. La tabella include l'identificatore del codice della lingua (LCID) e il codice esadecimale della lingua per ogni lingua e dialetto supportati. I primi due numeri nel codice esadecimale rappresentano il dialetto e gli ultimi due numeri rappresentano la lingua. Per le lingue che non dispongono di word breaker separati per dialetti separati, i primi due numeri nel codice esadecimale della lingua sono sempre zeri.

Tabella 2 - Lingue supportate

Lingua/variante LCID Codice esadecimale della lingua
Arabo 1025 0001
Bengali 1093 0045
Bulgaro 1026 0002
Catalano 1027 0003
Croato 1050 001a
Danese 1030 0006
Olandese 1043 0013
Inglese 1033 0009
Francese 1036 000c
Tedesco 1031 0007
Gujarati 1095 0047
Ebraico 1037 000d
Hindi 1081 0039
Islandese 1039 000f
Indonesiano 1057 0021
Italiano 1040 0010
Giapponese 1041 0011
Kannada 1099 004b
Lettone 1062 0026
Lituano 1063 0027
Malay 1086 003e
Malayalam 1100 004c
Marathi 1102 004e
Norwegian_Bokmaal 1044 0414
Portoghese 2070 0816
Portuguese_Braz 1046 0416
Punjabi 1094 0046
Romeno 1048 0018
Russo 1049 0019
Serbian_Cyrillic 3098 0c1a
Serbian_Latin 2074 081a
Slovacco 1051 001b
Sloveno 1060 0024
Spagnolo 3082 000a
Svedese 1053 001d
Tamil 1097 0049
Telugu 1098 004a
Ucraino 1058 0022
Urdu 1056 0020
Vietnamita 1066 002a