Pianificare la ricerca per indicizzazione del contenuto (Search Server 2008)

Aggiornato: 2008-09-19

Contenuto dell'articolo:

  • Informazioni sulla ricerca per indicizzazione e sull'indicizzazione del contenuto

  • Identificare le origini di contenuto di cui si desidera eseguire la ricerca per indicizzazione

  • Pianificare le origini di contenuto

  • Pianificare l'autenticazione

  • Pianificare i gestori di protocollo

  • Pianificare la gestione dell'impatto della ricerca per indicizzazione

  • Pianificare le regole di ricerca per indicizzazione

  • Pianificare le impostazioni di ricerca gestite a livello di farm

  • Indicizzazione del contenuto in lingue diverse

Nota

Salvo quanto altrimenti previsto, le informazioni contenute in questo articolo si applicano al Server di ricerca 2008 Microsoft e al Server di ricerca 2008 Express Microsoft.

Lo scopo di questo articolo è agevolare gli amministratori dei servizi di ricerca nella pianificazione della ricerca per indicizzazione del contenuto illustrando in che modo Server di ricerca 2008 Microsoft esegue la ricerca per indicizzazione e indicizza il contenuto. Per ulteriori informazioni, vedere Aggiungere o rimuovere un amministratore dei servizi di ricerca (Search Server 2008).

Per consentire agli utenti di utilizzare la funzionalità di ricerca contenuti organizzazione disponibile in Server di ricerca 2008, è innanzitutto necessario eseguire la ricerca per indicizzazione del contenuto a fronte del quale verranno eseguite le query.

Per lo scopo di questo articolo, il contenuto è un elemento che può essere sottoposto a ricerca per indicizzazione, ad esempio una pagina Web, un documento di Microsoft Office Word o un file di messaggio di posta elettronica.

Quando si pianifica la ricerca per indicizzazione del contenuto, è opportuno porsi le domande seguenti:

  • Dove si trova fisicamente il contenuto?

  • Il contenuto è memorizzato in origini diverse, ad esempio condivisioni di file, siti di SharePoint, siti Web o altre posizioni?

  • Si desidera eseguire la ricerca per indicizzazione di tutto il contenuto memorizzato in corrispondenza dell'origine o solo di una parte di esso?

  • Di quali tipi di file si desidera eseguire la ricerca per indicizzazione?

  • Quando e con quale frequenza verrà eseguita la ricerca per indicizzazione del contenuto?

  • Come viene protetto il contenuto?

Utilizzare le informazioni contenute in questo articolo per rispondere a queste domande e prendere le decisioni necessarie in relazione al contenuto di cui eseguire la ricerca per indicizzazione e alla modalità e al momento in cui si desidera eseguire tale ricerca.

Informazioni sulla ricerca per indicizzazione e sull'indicizzazione del contenuto

La ricerca per indicizzazione e l'indicizzazione del contenuto costituiscono il processo tramite il quale il sistema accede e analizza il contenuto e le relative proprietà, dette talvolta metadati, per generare un indice del contenuto dal quale è possibile elaborare le query di ricerca.

Dopo il completamento della ricerca per indicizzazione del contenuto, il crawler è in grado di accedere e leggere i singoli file o parti di contenuto. Le parole chiave e i metadati per tali file sono memorizzati nell'indice di contenuto, talvolta definito semplicemente indice. L'indice è costituito dalle parole chiave memorizzate nel file system del server di indicizzazione e dai metadati memorizzati nel database di ricerca. Il sistema gestisce un mapping tra le parole chiave, i metadati e l'URL dell'origine da cui il contenuto è stato sottoposto a ricerca per indicizzazione.

Al servizio di ricerca, associato al provider di servizi condivisi, viene assegnato un server specifico per indicizzare il contenuto. Diversamente dai prodotti server dell'edizione 2007 Office, che possono avere più provider di servizi condivisi e pertanto più di un indice di contenuto, Server di ricerca 2008 è limitato a un solo provider e pertanto dispone di un solo indice di contenuto.

Nota

Il crawler non modifica i file sui server host, ma accede ai file e li legge e quindi invia il testo e i metadati al server di indicizzazione. Sebbene alcuni server host modifichino la data nei file dopo l'accesso del crawler, il crawler non esegue questa operazione.

Identificare le origini di contenuto di cui si desidera eseguire la ricerca per indicizzazione

In molti casi, è possibile che le esigenze dell'organizzazione richiedano solo di eseguire la ricerca per indicizzazione di tutto il contenuto presente sui siti di SharePoint nella server farm. In questo caso, potrebbe non essere necessario identificare le origini di contenuto di cui si desidera eseguire la ricerca per indicizzazione perché tutte le raccolte siti di una server farm possono essere sottoposte a ricerca per indicizzazione tramite l'origine di contenuto predefinita. Per ulteriori informazioni sull'origine di contenuto predefinita, vedere Pianificare le origini di contenuto più avanti in questo articolo.

In molte organizzazioni inoltre è necessario eseguire la ricerca per indicizzazione del contenuto esterno alla server farm, ad esempio le condivisioni di file o siti Web su Internet. Server di ricerca 2008 consente di eseguire la ricerca per indicizzazione e di indicizzare il contenuto ospitato su altre farm di Windows SharePoint Services, siti Web, condivisioni di file, cartelle pubbliche di Microsoft Exchange e server IBM Lotus Notes. In questo modo viene notevolmente aumentata la quantità di contenuto disponibile per le query di ricerca.

In molti casi, tuttavia, non è necessario eseguire la ricerca per indicizzazione di ogni raccolta siti della server farm, perché il contenuto archiviato in alcune raccolte siti potrebbe non essere pertinente nei risultati della ricerca. In questo caso, è necessario effettuare una o entrambe le operazioni seguenti:

  • Prendere nota degli URL delle raccolte siti di cui non si desidera eseguire la ricerca per indicizzazione. Se si decide di utilizzare l'origine di contenuto predefinita, è necessario verificare che gli indirizzi iniziali delle raccolte siti di cui non si desidera eseguire la ricerca per indicizzazione non siano elencati nell'origine di contenuto predefinita.

  • Prendere nota degli indirizzi iniziali delle raccolte siti che si desidera sottoporre a ricerca per indicizzazione. Se si decide di creare ulteriori origini di contenuto da utilizzare per eseguire la ricerca per indicizzazione di questo contenuto, è necessario conoscere tali indirizzi iniziali. Nella sezione Pianificare le origini di contenuto di questo articolo viene illustrato quando utilizzare una o più origini di contenuto.

SuggerimentoSuggerimento:

In Search Server esistono due modi per elaborare le query di ricerca in modo da restituire i risultati della ricerca agli utenti. È possibile effettuare la query sull'indice di contenuto di Search Server oppure utilizzare la ricerca federata. Ognuno di questi approcci presenta dei vantaggi. Per un confronto di questi due approcci all'elaborazione delle query di ricerca e per una panoramica della ricerca federata, vedere Panoramica della ricerca federata (informazioni in lingua inglese) (https://go.microsoft.com/fwlink/?linkid=122651&clcid=0x410) (informazioni in lingua inglese). Per un elenco e una breve descrizione degli articoli relativi a Server di ricerca sulla comprensione e l'utilizzo della federazione, vedere Utilizzo della federazione (Search Server 2008).

Pianificare le origini di contenuto

Per poter eseguire la ricerca per indicizzazione del contenuto, è necessario determinare dove si trova e in quali tipi di server è ospitato il contenuto. Dopo la raccolta di queste informazioni, un amministratore dei servizi di ricerca può creare una o più origini di contenuto, che mettono a disposizione del crawler le informazioni seguenti:

  • Tipo di contenuto di cui eseguire la ricerca per indicizzazione, ad esempio un sito di SharePoint o una condivisione di file.

  • Indirizzo iniziale da cui avviare la ricerca per indicizzazione.

  • Tipo di comportamento da utilizzare durante la ricerca per indicizzazione, ad esempio la profondità della ricerca per indicizzazione a partire dall'indirizzo iniziale o il numero di passaggi tra server da consentire.

  • Frequenza della ricerca per indicizzazione.

Nota

La ricerca per indicizzazione di contenuto tramite una particolare origine di contenuto è un'operazione definita a volte "ricerca per indicizzazione dell'origine di contenuto".

In questa sezione sono disponibili informazioni utili per pianificare le origini di contenuto necessarie per l'organizzazione.

L'origine di contenuto predefinita è denominata Siti locali di Office SharePoint Server. Gli amministratori dei servizi di ricerca possono utilizzare questa origine di contenuto per eseguire la ricerca per indicizzazione e indicizzare tutto il contenuto della server farm. Per impostazione predefinita, Server di ricerca 2008 aggiunge l'indirizzo iniziale (in questo caso un URL) del sito di livello superiore di ogni raccolta siti della farm all'origine di contenuto predefinito.

Per alcune organizzazioni, l'utilizzo della sola origine di contenuto predefinita per eseguire la ricerca per indicizzazione di tutti i siti nelle raccolte siti soddisfa i requisiti di ricerca. Tuttavia, per molte organizzazioni sono necessarie origini di contenuto aggiuntive.

Tra i motivi per la creazione di origini di contenuto aggiuntive è presente la necessità di:

  • Eseguire la ricerca per indicizzazione di tipi diversi di contenuto.

  • Eseguire la ricerca per indicizzazione di alcuni contenuti con una pianificazione diversa rispetto ad altri.

  • Limitare o aumentare la quantità di contenuto sottoposto a ricerca per indicizzazione.

Gli amministratori dei servizi di ricerca possono creare fino a 500 origini di contenuto e ogni origine di contenuto può contenere fino a 500 indirizzi iniziali. Per semplificare l'amministrazione il più possibile, è consigliabile creare solo le origini di contenuto necessarie.

Eseguire la ricerca per indicizzazione di tipi diversi di contenuto

È possibile eseguire la ricerca per indicizzazione di un solo tipo di contenuto per ogni origine di contenuto. Ciò significa che è possibile creare un'origine di contenuto che include gli URL dei siti di SharePoint e un'altra che include gli URL delle condivisioni di file, ma non è possibile creare una sola origine di contenuto che includa sia gli URL dei siti di SharePoint che quelli delle condivisioni di file. Nella tabella seguente sono elencati i tipi di origini di contenuto che è possibile configurare.

Tipo di origine di contenuto Tipo di contenuto incluso

Siti di SharePoint

Siti di SharePoint dalla stessa farm o da farm diverse di Microsoft Office SharePoint Server 2007, Microsoft Windows SharePoint Services 3.0 o Server di ricerca 2008

  • Siti di SharePoint da Microsoft Office SharePoint Portal Server 2003 o Windows SharePoint Services 2.0

    NotaNota:
    A differenza della ricerca per indicizzazione dei siti di SharePoint su Microsoft Office SharePoint Server 2007 Microsoft Windows SharePoint Services 3.0 o Server di ricerca 2008, il crawler non è in grado di eseguire automaticamente la ricerca per indicizzazione di tutti i siti secondari di una raccolta siti da versioni precedenti di Prodotti e tecnologie SharePoint. Pertanto, durante la ricerca per indicizzazione dei siti di SharePoint da versioni precedenti, è necessario specificare l'URL di ogni sito principale e di ogni sito secondario di cui si desidera eseguire la ricerca per indicizzazione. I siti elencati nella directory siti delle farm di Microsoft Office SharePoint Portal Server 2003 vengono sottoposti a ricerca per indicizzazione quando viene sottoposto a ricerca per indicizzazione il sito portale. Per ulteriori informazioni sulla directory siti, vedere Informazioni sulla directory siti (informazioni in lingua inglese) all'indirizzo https://go.microsoft.com/fwlink/?linkid=88227&clcid=0x410

Siti Web

  • Altro contenuto Web dell'organizzazione non trovato nei siti di SharePoint

  • Contenuto in siti Web su Internet

Condivisioni di file

Contenuto in condivisioni di file all'interno dell'organizzazione

Lotus Notes

Messaggi di posta elettronica archiviati in database di Lotus Notes

NotaNota:
A differenza di tutti gli altri tipi di origini di contenuto, l'opzione relativa all'origine di contenuto di Lotus Notes non viene visualizzata nell'interfaccia utente finché non viene installato e configurato il software necessario appropriato. Per ulteriori informazioni, vedere Configurare Search Server per la ricerca per indicizzazione di Lotus Notes (Search Server 2008).

Cartelle pubbliche di Exchange

Contenuto del server di Exchange

Eseguire la ricerca per indicizzazione del contenuto con pianificazioni diverse

Gli amministratori dei servizi di ricerca devono spesso decidere se eseguire la ricerca per indicizzazione di parte del contenuto con una frequenza maggiore degli altri contenuti. Maggiore è il volume del contenuto di cui si esegue la ricerca per indicizzazione, maggiori saranno le probabilità che si esegua la ricerca per indicizzazione di contenuto da origini diverse. Queste origini diverse potrebbero o potrebbero non essere dello stesso tipo e potrebbero essere ospitate su server di velocità variabili in relazione a un altro.

Questi fattori rendono più probabile che siano necessarie origini di contenuto aggiuntive per eseguire la ricerca per indicizzazione di tali origini di contenuto diverse in momenti diversi.

I motivi principali per cui il contenuto viene sottoposto a ricerca per indicizzazione con pianificazioni diverse sono i seguenti:

  • Per contenere i tempi di inattività e i periodi di utilizzo di punta.

  • Per eseguire più di frequente la ricerca per indicizzazione del contenuto che viene aggiornato più frequentemente.

  • Per eseguire la ricerca per indicizzazione del contenuto ospitato su server host più lenti separatamente dal contenuto sottoposto a ricerca per indicizzazione su server host più veloci.

In molti casi, è possibile che non tutte queste informazioni risultino note finché Server di ricerca 2008 non viene distribuito ed eseguito per un certo periodo di tempo. Alcune di queste decisioni vengono invece prese durante la fase operativa. Tuttavia, è preferibile prendere in considerazione questi fattori durante la pianificazione in modo che sia possibile effettuare le pianificazioni della ricerca per indicizzazione in base alle informazioni a disposizione.

Nelle due sezioni seguenti sono disponibili ulteriori informazioni sulla ricerca per indicizzazione del contenuto con pianificazioni diverse.

Tempi di inattività e periodi di utilizzo di punta

Valutare i tempi di inattività e i periodi di utilizzo di punta dei server che ospitano il contenuto di cui si desidera eseguire la ricerca per indicizzazione. Se, ad esempio, si sta eseguendo la ricerca per indicizzazione del contenuto ospitato da più server diversi esterni alla server farm, è probabile che il backup di questi server venga eseguito con pianificazioni diverse e che i periodi di utilizzo di punta dei server siano diversi. L'amministrazione dei server all'esterno della server farm non è in genere sotto diretto controllo. È pertanto consigliabile coordinare le ricerche per indicizzazione con gli amministratori dei server che ospitano il contenuto di cui si desidera eseguire la ricerca per indicizzazione, per essere certi che non si tenti di eseguire la ricerca per indicizzazione del contenuto sui server durante un periodo di inattività o di utilizzo di punta.

Uno scenario comune riguarda il contenuto correlato al contenuto dei siti di SharePoint dell'organizzazione ma non sotto il controllo dell'organizzazione. È possibile aggiungere gli indirizzi iniziali di tale contenuto a un'origine di contenuto esistente oppure creare una nuova origine per il contenuto esterno. La disponibilità dei siti esterni è soggetta a variazioni notevoli e pertanto sarà utile aggiungere origini di contenuto distinte per un contenuto esterno diverso. In questo modo, le origini di contenuto per il contenuto esterno possono essere sottoposte a ricerca per indicizzazione in momenti diversi rispetto alle altre origini di contenuto. Sarà così possibile aggiornare il contenuto esterno utilizzando una pianificazione di ricerca per indicizzazione che tenga conto della disponibilità di ogni sito.

Contenuto aggiornato frequentemente

Durante la definizione delle pianificazioni di ricerca per indicizzazione, tenere presente che alcune origini di contenuto vengono in genere aggiornate con maggiore frequenza rispetto ad altre. Ad esempio, se si è certi che il contenuto di alcune raccolte siti o origini esterne viene aggiornato solo il venerdì, sottoporre tale contenuto a ricerca per indicizzazione più volte alla settimana comporterebbe un inutile spreco di risorse. La server farm potrebbe tuttavia contenere altre raccolte siti che vengono costantemente aggiornate dal lunedì al venerdì, ma in genere non il sabato e la domenica. In questo caso, è possibile che si desideri sottoporre tale contenuto a ricerca per indicizzazione più volte al giorno durante la settimana, ma solo una o due volte nei fine settimana.

Il modo in cui il contenuto viene archiviato nelle raccolte siti nel proprio ambiente può suggerire la creazione di origini di contenuto aggiuntive per ogni raccolta siti all'interno di ogni applicazione Web. Se in una raccolta siti vengono ad esempio inserite solo informazioni archiviate, può non essere necessario sottoporre tale contenuto a ricerca per indicizzazione con la stessa frequenza di una raccolta siti in cui viene archiviato frequentemente contenuto aggiornato. In questo caso, è possibile che si desideri sottoporre a ricerca per indicizzazione queste due raccolte siti utilizzando origini di contenuto diverse, in modo da poterle sottoporre a ricerca per indicizzazione con una pianificazione diversa senza eseguire la ricerca per indicizzazione dei siti di archivio con la stessa frequenza dell'altro contenuto.

Pianificazioni di ricerca per indicizzazione completa e incrementale

Gli amministratori dei servizi di ricerca possono configurare le pianificazioni di ricerca per indicizzazione in modo indipendente per ogni origine di contenuto. Per ogni origine di contenuto, possono specificare un'ora in cui eseguire le ricerche per indicizzazione complete e un'ora distinta per eseguire la ricerca per indicizzazione incrementale. Si noti che è necessario eseguire una ricerca per indicizzazione completa per un'origine di contenuto specifica prima di eseguire una ricerca per indicizzazione incrementale. Se si sceglie una ricerca per indicizzazione incrementale per il contenuto di cui non è ancora stata eseguita la ricerca per indicizzazione, il sistema esegue una ricerca per indicizzazione completa.

È consigliabile definire pianificazioni di ricerca per indicizzazione in base alle considerazioni di disponibilità, prestazioni e larghezza di banda dei server che eseguono il servizio di ricerca e dei server che ospitano il contenuto sottoposto a ricerca per indicizzazione.

Quando si definiscono pianificazioni di ricerca per indicizzazione, tenere presenti le procedure consigliate seguenti:

  • Raggruppare gli indirizzi iniziali nelle origini di contenuto in base a disponibilità simili e un utilizzo generale delle risorse accettabile per i server che ospitano il contenuto.

  • Pianificare ricerche per indicizzazione incrementali per ogni origine di contenuto nei periodi in cui i server che ospitano il contenuto sono disponibili e quando la richiesta delle risorse del server è limitata.

  • Scaglionare le pianificazioni della ricerca per indicizzazione in modo da distribuire nel tempo il carico sui server della farm.

  • Pianificare ricerche per indicizzazione complete quando necessarie per i motivi elencati nella sezione riportata di seguito. È consigliabile eseguire le ricerche per indicizzazione complete con minore frequenza rispetto a quelle incrementali.

  • Pianificare di eseguire le modifiche amministrative che richiedono una ricerca per indicizzazione completa poco prima della pianificazione definita per le ricerche per indicizzazione complete. È ad esempio consigliabile tentare di pianificare la creazione della regola di ricerca per indicizzazione prima della successiva ricerca per indicizzazione completa, affinché non sia necessaria una ricerca per indicizzazione completa aggiuntiva.

  • Basare le ricerche per indicizzazione simultanee sulla capacità del server di indicizzazione di eseguirne la ricerca per indicizzazione. È consigliabile scaglionare in genere le pianificazioni delle ricerche per indicizzazione in modo che il server di indicizzazione non esegua la ricerca per indicizzazione utilizzando contemporaneamente più origini di contenuto. Per ottenere prestazioni ottimali, è consigliabile scaglionare le pianificazioni delle ricerche per indicizzazione delle origini di contenuto. Le prestazioni del server di indicizzazione e dei server che ospitano il contenuto determinano fino a che punto è possibile sovrapporre le ricerche per indicizzazione. È possibile sviluppare nel tempo una strategia per la pianificazione delle ricerche per indicizzazione man mano che si acquisisce familiarità con la durata delle ricerche per indicizzazione tipica per ogni origine di contenuto.

Motivi per eseguire una ricerca per indicizzazione completa

Tra i motivi per cui un amministratore dei servizi di ricerca esegue una ricerca per indicizzazione completa vi sono:

  • Sono stati installati uno o più aggiornamenti rapidi o Service Pack nei server della farm. Per ulteriori informazioni, vedere le istruzioni per l'aggiornamento rapido o il Service Pack.

  • Un amministratore dei servizi di ricerca ha aggiunto una nuova proprietà gestita.

  • Per reindicizzare pagine ASPX in siti di Microsoft Windows SharePoint Services 3.0.

    Nota

    Il crawler non è in grado di individuare modifiche alle pagine ASPX in siti di Microsoft Windows SharePoint Services 3.0. Per questo motivo le ricerche per indicizzazione incrementali non determinano la reindicizzazione di visualizzazioni o home page quando vengono eliminati singoli elementi di elenco. È consigliabile eseguire periodicamente ricerche per indicizzazione complete dei siti che contengono pagine ASPX per garantire che queste pagine vengano reindicizzate.

  • Per rilevare le modifiche di protezione eseguite sulla condivisione file dopo l'ultima ricerca per indicizzazione completa nella condivisione file.

  • Per risolvere errori consecutivi nelle ricerche per indicizzazione incrementali. Nei rari casi in cui in una ricerca per indicizzazione incrementale si verifica un errore per cento volte consecutive a qualsiasi livello di un archivio, il server di indicizzazione rimuove il contenuto interessato dall'indice.

  • Sono state aggiunte, eliminate o modificate regole di ricerca per indicizzazione.

  • Per ripristinare un indice danneggiato.

  • L'amministratore dei servizi di ricerca ha creato uno o più mapping di nomi server.

  • È stato modificato l'account assegnato all'account predefinito di accesso al contenuto o la regola di ricerca per indicizzazione.

Il sistema esegue una ricerca per indicizzazione completa anche quando è richiesta una ricerca per indicizzazione incrementale nelle circostanze seguenti:

  • Un amministratore dei servizi di ricerca ha interrotto la ricerca per indicizzazione precedente.

  • È stato ripristinato un database del contenuto.

    Nota

    Se si esegue l'Aggiornamento dell'infrastruttura per Microsoft Office Servers, sarà possibile utilizzare l'operazione restore dello strumento da riga di comando Stsadm per decidere se il ripristino di un database del contenuto determini o meno una ricerca per indicizzazione completa.

  • Un amministratore della farm ha scollegato e ricollegato un database del contenuto.

  • Non è mai stata eseguita una ricerca per indicizzazione completa del sito.

  • Il registro delle modifiche non contiene voci per gli indirizzi sottoposti a ricerca per indicizzazione. Senza tali voci non è possibile eseguire ricerche per indicizzazione incrementali.

  • È stato modificato l'account assegnato all'account predefinito di accesso al contenuto o la regola di ricerca per indicizzazione.

  • Per ripristinare un indice danneggiato.

    A seconda del livello di gravità, il sistema potrebbe tentare di eseguire una ricerca per indicizzazione completa se viene rilevato un danneggiamento nell'indice.

È possibile modificare le pianificazioni dopo la distribuzione iniziale in base alle prestazioni e alla capacità dei server nella farm e dei server che ospitano il contenuto.

Limitare o aumentare la quantità di contenuto sottoposto a ricerca per indicizzazione

Per ogni origine di contenuto, è possibile specificare quanto ampiamente eseguire la ricerca per indicizzazione degli indirizzi iniziali in tale origine di contenuto. È inoltre possibile specificare il comportamento della ricerca per indicizzazione, al quale si fa talvolta riferimento come alle impostazioni della ricerca per indicizzazione. Le opzioni che è possibile scegliere per una determinata origine di contenuto variano leggermente in base al tipo di origine di contenuto selezionato. Tuttavia, la maggior parte delle opzioni determina quanti livelli della gerarchia vengono sottoposti a ricerca per indicizzazione da ciascun indirizzo iniziale elencato nell'origine di contenuto. Si noti che questo comportamento viene applicato a tutti gli indirizzi iniziali di un'origine di contenuto specifica. Se è necessario eseguire la ricerca per indicizzazione di alcuni siti a livello più profondo, è possibile creare ulteriori origini di contenuto che comprendono tali siti.

Le opzioni disponibili nelle proprietà di ogni origine di contenuto variano in base al tipo di origine di contenuto selezionato. Nella tabella seguente sono descritte le impostazioni della ricerca per indicizzazione per ogni tipo di origine di contenuto.

Tipo di origine di contenuto Impostazioni della ricerca per indicizzazione

Siti di SharePoint

  • Tutto il contenuto nel nome host per ogni indirizzo iniziale

  • Solo il sito di SharePoint di ogni indirizzo iniziale

Siti Web

  • Solo nel server di ogni indirizzo iniziale

  • Solo la prima pagina di ogni indirizzo iniziale

  • Personalizzata - specificare il livello di pagine e i passaggi tra server

    NotaNota:
    L'impostazione predefinita di questa opzione prevede livelli di pagine e passaggi tra server illimitati.

Condivisioni di file

  • La cartella e tutte le sottocartelle di ogni indirizzo iniziale

  • Solo la cartella di ogni indirizzo iniziale

Cartelle pubbliche di Exchange

  • La cartella e tutte le sottocartelle di ogni indirizzo iniziale

  • Solo la cartella di ogni indirizzo iniziale

Come illustrato nella tabella precedente, gli amministratori dei servizi di ricerca possono utilizzare le impostazioni della ricerca per indicizzazione per limitare o aumentare la quantità di contenuto sottoposto alla ricerca per indicizzazione.

Nella tabella seguente sono descritte le procedure consigliate durante la configurazione delle impostazioni della ricerca per indicizzazione.

Tipo di origine di contenuto Obiettivo Impostazione della ricerca per indicizzazione da utilizzare

Siti di SharePoint

Si desidera includere il contenuto del sito stesso

-oppure-

Non si desidera includere il contenuto disponibile su siti secondari o si desidera eseguirne la ricerca per indicizzazione in base a una pianificazione diversa

Solo il sito di SharePoint di ogni indirizzo iniziale

Siti di SharePoint

Si desidera includere il contenuto del sito stesso

-oppure-

Si desidera eseguire la ricerca per indicizzazione di tutto il contenuto nell'indirizzo iniziale in base alla stessa pianificazione

Tutto il contenuto nel nome host per ogni indirizzo iniziale

Siti Web

Il contenuto del sito è pertinente

-oppure-

Il contenuto disponibile nei siti collegati probabilmente non è pertinente

Solo nel server di ogni indirizzo iniziale

Siti Web

Il contenuto pertinente si trova solo nella prima pagina

Solo la prima pagina di ogni indirizzo iniziale

Siti Web

Si desidera limitare l'estensione della ricerca per indicizzazione dei collegamenti negli indirizzi iniziali

Personalizzata - specificare il livello di pagine e i passaggi tra server

NotaNota:
È consigliabile iniziare con un numero ridotto in un sito molto ben connesso. Specificare più di tre livelli di pagine o più di tre passaggi tra server significherebbe eseguire una ricerca per indicizzazione in tutta Internet.

Condivisioni di file

Cartelle pubbliche di Exchange

Il contenuto disponibile nelle sottocartelle non è probabilmente pertinente

Solo la cartella di ogni indirizzo iniziale

Condivisioni di file

Cartelle pubbliche di Exchange

Il contenuto nelle sottocartelle è probabilmente pertinente

La cartella e tutte le sottocartelle di ogni indirizzo iniziale

Pianificare le inclusioni di tipi di file e filtri IFilter

Il contenuto viene sottoposto a ricerca per indicizzazione solo se l'estensione del nome di file pertinente è inclusa nell'elenco di inclusioni di tipi di file e se un filtro IFilter che supporta tali tipi di file è installato nel server di indicizzazione. Durante l'installazione iniziale vengono inclusi automaticamente diversi tipi di file. Durante la pianificazione delle origini di contenuto nella distribuzione iniziale determinare se il contenuto che si desidera sottoporre a ricerca per indicizzazione utilizza tipi di file non inclusi. Se i tipi di file non sono inclusi, sarà necessario aggiungere tali tipi di file nella pagina Gestisci tipi di file durante la distribuzione e accertarsi che un filtro IFilter sia installato e registrato per supportare quei tipi di file.

In Server di ricerca 2008 sono inclusi diversi filtri IFilter e altri ancora sono disponibili presso Microsoft e fornitori di terze parti. Per ulteriori informazioni sull'installazione e la registrazione di filtri IFilter aggiuntivi disponibili da Microsoft, vedere Come registrare Microsoft Filter Pack in SharePoint Server 2007 e in Search Server 2008. Se necessario, sviluppatori di software possono creare filtri IFilter per nuovi tipi di file.

Se invece si desidera escludere determinati tipi di file dalla ricerca per indicizzazione, è possibile eliminare l'estensione del tipo di file dall'elenco delle inclusioni dei tipi di file. In questo modo, i nomi file con tale estensione verranno esclusi dalla ricerca per indicizzazione.

Nella tabella seguente vengono elencati i tipi di file supportati dai filtri IFilter installati per impostazione predefinita e i tipi di file attivati nella pagina Gestisci tipi di file per impostazione predefinita.

Estensione file Supporto IFilter predefiniti Inclusioni di tipi di file predefinite

ascx

asm

No

asp

aspx

bat

No

c

No

cmd

No

cpp

No

css

No

cxx

No

def

No

dic

No

doc

docm

docx

dot

eml

exch

No

h

No

hhc

No

hht

No

hpp

No

hta

No

htm

html

htw

No

htx

No

jhtml

No

jsp

No

lnk

No

mht

mhtml

mpx

No

msg

mspx

No

nsf

No

odc

one

No

No

php

No

pot

No

pps

No

ppt

pptm

pptx

pub

stm

No

tif

tiff

No

trf

No

txt

url

No

vdx

No

vsd

No

vss

No

vst

No

vsx

No

vtx

No

xlb

No

xlc

No

xls

xlsm

xlsx

xlt

No

xml

IFilter e Microsoft Office OneNote

Non è presente un filtro IFilter per l'estensione del nome di file one utilizzata da Microsoft Office OneNote. Per consentire agli utenti di eseguire ricerche sul contenuto dei file di Office OneNote, è necessario installare il filtro IFilter per OneNote. A tale scopo eseguire una delle operazioni seguenti:

  • Installare l'applicazione client Microsoft Office OneNote 2007 nel server di indicizzazione.

    Il filtro IFilter incluso in Office OneNote 2007 può essere utilizzato per eseguire la ricerca per indicizzazione dei file sia di Office OneNote 2003 che di Office OneNote 2007. Il filtro IFilter installato con Office OneNote 2003 può eseguire la ricerca per indicizzazione soltanto dei file di Office OneNote 2003.

  • Installare e registrare Microsoft Filter Pack.

    Il filtro IFilter per OneNote incluso in questo pacchetto di filtri può essere utilizzato per sottoporre a ricerca per indicizzazione solo file di Office OneNote 2007. Per ulteriori informazioni, vedere Come registrare Microsoft Filter Pack in SharePoint Server 2007 e in Search Server 2008.

Limitare o escludere contenuto utilizzando le regole della ricerca per indicizzazione

Quando si aggiunge un indirizzo iniziale a un'origine di contenuto e si accetta il comportamento predefinito, tutte le cartelle o i siti secondari di quell'indirizzo iniziale vengono sottoposti a ricerca per indicizzazione, a meno che non vengano esclusi utilizzando una o più regole della ricerca per indicizzazione.

Per ulteriori informazioni sulle regole della ricerca per indicizzazione, vedere Pianificare le regole di ricerca per indicizzazione più avanti in questo articolo.

Altre considerazioni sulla pianificazione delle origini di contenuto

Non è possibile eseguire la ricerca per indicizzazione degli stessi indirizzi utilizzando più origini di contenuto. Se, ad esempio, si utilizza una determinata origine di contenuto per eseguire la ricerca per indicizzazione di una raccolta siti e di tutti i siti secondari, non è possibile utilizzare un'origine di contenuto diversa per eseguire separatamente la ricerca per indicizzazione di uno di tali siti secondari in base a una pianificazione diversa. Per soddisfare questa restrizione, potrebbe essere necessario eseguire separatamente la ricerca per indicizzazione di alcuni di questi siti. Si consideri il seguente scenario:

Un amministratore di Contoso desidera eseguire la ricerca per indicizzazione di http://contoso, che contiene i siti secondari http://contoso/siti/sito1 e http://contoso/siti/sito2. L'amministratore desidera eseguire la ricerca per indicizzazione di http://contoso/siti/sito2 in base a una pianificazione diversa rispetto a quella degli altri siti. A tale scopo, l'amministratore aggiunge gli indirizzi http://contoso e http://contoso/siti/sito1 a un'origine di contenuto e seleziona l'impostazione denominata Solo il sito di SharePoint di ogni indirizzo iniziale. Il sito secondario http://contoso/siti/sito2 viene quindi aggiunto a un'origine di contenuto distinta con una pianificazione della ricerca per indicizzazione diversa.

Oltre alle pianificazioni delle ricerche per indicizzazione, esistono altri elementi da considerare durante la pianificazione delle origini di contenuto. Ad esempio, la scelta di raggruppare gli indirizzi iniziali in una singola origine di contenuto oppure creare ulteriori origini di contenuto per eseguire la ricerca per indicizzazione di tali indirizzi iniziali dipende soprattutto da considerazioni relative all'amministrazione. Gli amministratori spesso apportano modifiche che richiedono un aggiornamento completo di una determinata origine di contenuto. Le modifiche a un'origine di contenuto richiedono una ricerca per indicizzazione completa dell'origine di contenuto. Per semplificare l'amministrazione, organizzare le origini di contenuto in modo che l'aggiornamento delle origini di contenuto, le regole della ricerca per indicizzazione e la ricerca per indicizzazione del contenuto risultino agevoli per gli amministratori.

Riepilogo delle origini di contenuto

Considerare quanto riportato di seguito durante la pianificazione delle origini di contenuto:

  • È possibile utilizzare una determinata origine di contenuto per eseguire la ricerca per indicizzazione di uno solo dei tipi di contenuto seguenti: siti di SharePoint, siti Web diversi dai siti di SharePoint, condivisioni di file, cartelle pubbliche di Exchange e database di Lotus Notes.

  • Gli amministratori dei servizi di ricerca possono creare fino a 500 origini di contenuto e ogni origine di contenuto può contenere fino a 500 indirizzi iniziali. Per semplificare l'amministrazione il più possibile, creare solo le origini di contenuto strettamente necessarie.

  • Ogni URL in una determinata origine di contenuto deve essere dello stesso tipo di origine di contenuto.

  • Per una determinata origine di contenuto è possibile scegliere il livello di profondità della ricerca per indicizzazione dagli indirizzi iniziali. Queste impostazioni di configurazione si applicano a tutti gli indirizzi iniziali inclusi nell'origine di contenuto. Le impostazioni disponibili variano a seconda del tipo di origine di contenuto selezionato.

  • È possibile pianificare quando eseguire una ricerca per indicizzazione completa o incrementale per l'intera origine di contenuto. Per ulteriori informazioni sulla pianificazione delle ricerche per indicizzazione, vedere Pianificare le ricerche per indicizzazione più avanti in questo articolo.

  • Gli amministratori dei servizi di ricerca possono modificare l'origine di contenuto predefinita, creare ulteriori origini di contenuto per la ricerca per indicizzazione di altri contenuti o eseguire entrambe le operazioni. Possono, ad esempio, configurare l'origine di contenuto predefinita per eseguire la ricerca per indicizzazione anche del contenuto in una server farm diversa oppure possono creare una nuova origine di contenuto per eseguire la ricerca per indicizzazione di altri contenuti.

  • Per eseguire in modo efficace la ricerca per indicizzazione di tutto il contenuto necessario per l'organizzazione, utilizzare il numero di origini di contenuto più appropriato per i tipi di origini di cui si desidera eseguire la ricerca per indicizzazione e per la frequenza con cui si prevede di eseguirne la ricerca per indicizzazione.

Pianificare l'autenticazione

Quando il crawler accede agli indirizzi iniziali elencati nelle origini di contenuto, è necessario che venga autenticato dai server che ospitano tale contenuto e che disponga dell'accesso a questi server. Questo significa che l'account di dominio utilizzato dal crawler deve avere almeno l'autorizzazione in lettura per il contenuto.

L'account di accesso al contenuto predefinito è l'account utilizzato per impostazione predefinita durante la ricerca per indicizzazione delle origini di contenuto. Questo account viene specificato dall'amministratore dei servizi di ricerca. In alternativa, è possibile utilizzare le regole di ricerca per indicizzazione per specificare un account di accesso al contenuto diverso da utilizzare durante la ricerca per indicizzazione di contenuti particolari. Indipendentemente dall'utilizzo dell'account di accesso al contenuto predefinito oppure di un account diverso specificato da una regola di ricerca per indicizzazione, l'account di accesso al contenuto utilizzato deve disporre dell'accesso in lettura a tutto il contenuto di cui viene eseguita la ricerca per indicizzazione, altrimenti il contenuto non verrà sottoposto a ricerca per indicizzazione e non sarà disponibile per le query.

È consigliabile selezionare un account di accesso al contenuto predefinito con l'accesso più ampio alla maggior parte del contenuto sottoposto a ricerca per indicizzazione e utilizzare altri account di accesso al contenuto solo quando, per motivi di protezione, sono necessari account di accesso al contenuto distinti. Per informazioni sulla creazione di un account di accesso al contenuto separato per eseguire la ricerca per indicizzazione del contenuto che non può essere letto utilizzando l'account di accesso al contenuto predefinito, vedere Pianificare le regole di ricerca per indicizzazione più avanti in questo articolo.

Per ogni origine di contenuto pianificata, identificare gli indirizzi iniziali a cui non è possibile accedere tramite l'account di accesso al contenuto predefinito e pianificare l'aggiunta di regole di ricerca per indicizzazione per i formati URL che comprendono tali indirizzi iniziali.

Nota

Verificare che l'account di dominio utilizzato come account predefinito di accesso al contenuto o qualsiasi altro account di accesso al contenuto non sia lo stesso account di dominio utilizzato da un pool di applicazioni associato a un'applicazione Web sottoposta a ricerca per indicizzazione. Ciò può causare l'indicizzazione e la ricerca per indicizzazione di contenuto non pubblicato dei siti di SharePoint e di versioni secondarie dei file (cronologia) nei siti di SharePoint.

Per ulteriori informazioni sulle considerazioni di pianificazione per gli account di accesso al contenuto, vedere Pianificare le regole di ricerca per indicizzazione più avanti in questo articolo.

Un'altra considerazione importante è che il crawler deve utilizzare lo stesso metodo di autenticazione del server host. Per impostazione predefinita, il crawler tenta di eseguire l'autenticazione mediante l'autenticazione NTLM. È possibile configurare il crawler per l'utilizzo di un metodo di autenticazione diverso, se necessario. Per ulteriori informazioni, vedere "Requisiti dell'autenticazione per la ricerca per indicizzazione del contenuto" in Pianificare i metodi di autenticazione (Office SharePoint Server). Questo articolo si applica anche a Server di ricerca 2008.

Pianificare i gestori di protocollo

Tutto il contenuto di cui viene eseguita la ricerca per indicizzazione richiede l'utilizzo di un gestore di protocollo per accedere al contenuto stesso. Server di ricerca 2008 offre gestori di protocollo per tutti i protocolli Internet comuni. Se, tuttavia, si desidera eseguire la ricerca per indicizzazione di contenuto che richiede un gestore di protocollo non installato con Server di ricerca 2008, è necessario installare il gestore di protocollo personalizzato o di terze parti prima di eseguire la ricerca per indicizzazione di tale contenuto.

Nella tabella seguente vengono indicati i gestori di protocollo installati per impostazione predefinita.

Gestore di protocollo Ambito della ricerca per indicizzazione

File

Condivisioni di file

http

Siti Web

https

Siti Web su SSL (Secure Sockets Layer)

Notes

Database di Lotus Notes

Rb

Cartelle pubbliche di Exchange

Rbs

Cartelle pubbliche di Exchange su SSL

Sps

Profili utente dalle server farm di Windows SharePoint Services 2.0

Sps3

Ricerche per indicizzazione dei profili utente solo delle server farm di Microsoft Windows SharePoint Services 3.0

Sps3s

Ricerche per indicizzazione dei profili utente solo dalle server farm di Microsoft Windows SharePoint Services 3.0 su SSL

Spsimport

Importazione del profilo utente

Spss

Importazione del profilo utente dalle server farm di Windows SharePoint Services 2.0 su SSL

Sts

URL radice di Microsoft Windows SharePoint Services 3.0 (protocollo interno)

Sts2

Siti di Windows SharePoint Services 2.0

Sts2s

Siti di Windows SharePoint Services 2.0 su SSL

Sts3

Siti di Microsoft Windows SharePoint Services 3.0

Sts3s

Siti di Microsoft Windows SharePoint Services 3.0 su SSL

Pianificare la gestione dell'impatto della ricerca per indicizzazione

La ricerca per indicizzazione del contenuto può ridurre notevolmente le prestazioni dei server che ospitano il contenuto. L'impatto su un determinato server varia in base al carico gestito dal server host e alla disponibilità di risorse del server (in particolare CPU e RAM) per mantenere i contratti di servizio entro un utilizzo normale o di punta.

Le regole di impatto del crawler consentono agli amministratori della farm di gestire l'impatto del crawler sui server sottoposti a ricerca per indicizzazione. Per ogni regola di impatto del crawler, è possibile specificare un URL singolo o utilizzare i caratteri jolly nel percorso URL per includere un blocco di URL a cui viene applicata la regola. Sarà quindi possibile specificare quante richieste simultanee di pagine vengono effettuate all'URL specificato o scegliere di richiedere un solo documento per volta e attendere tra una richiesta e l'altra un numero di secondi scelto.

Le regole di impatto del crawler riducono o aumentano la velocità con cui il crawler richiede il contenuto a un determinato indirizzo iniziale o intervallo di indirizzi iniziali (detto talvolta nome sito), indipendentemente dall'origine di contenuto utilizzata per eseguire la ricerca per indicizzazione di tali indirizzi. Nella tabella seguente sono elencati i caratteri jolly che è possibile utilizzare nel nome di sito quando si aggiunge una regola.

Carattere jolly da utilizzare Risultato

* come nome del sito

Applica la regola a tutti i siti.

*.* come nome del sito

Applica la regola a siti con punti nel nome.

*.nome_sito.com come nome del sito

Applica la regola a tutti i siti del dominio nome_sito.com (ad esempio, *.adventure-works.com).

*.nome_dominio_primo_livello come nome del sito

Applica la regola a tutti i siti che terminano con un nome di dominio di primo livello specifico, ad esempio *.com oppure *.net.

?

Sostituisce un solo carattere in una regola. Ad esempio, *.adventure-works?.com viene applicato a tutti i siti dei domini adventure-works1.com, adventure-works2.com e così via.

È possibile creare una regola di impatto crawler che si applichi a tutti i siti all'interno di un particolare dominio di primo livello. Ad esempio, la regola per *.com verrà applicata a tutti i siti Internet con gli indirizzi che terminano con .com. Ad esempio, un amministratore di un sito portale può aggiungere un'origine di contenuto per example.microsoft.com. La regola per *.com si applica a questo sito a meno che non si aggiunga una regola di impatto crawler specificamente per example.microsoft.com.

Per il contenuto all'interno dell'organizzazione di cui altri amministratori eseguono la ricerca per indicizzazione, è possibile coordinare tali amministratori per impostare regole di impatto del crawler in base alle prestazioni e alla capacità dei server. Per i siti più esterni, il coordinamento non è possibile. Se il contenuto richiesto nei server esterni è eccessivo oppure le richieste sono troppo frequenti, è possibile che gli amministratori di tali siti limitino gli accessi futuri se le ricerche per indicizzazione utilizzano troppe risorse o un'eccessiva larghezza di banda. Di conseguenza, è consigliabile eseguire la ricerca per indicizzazione più lentamente. In questo modo, è possibile attenuare il rischio di perdere l'accesso per eseguire la ricerca per indicizzazione del contenuto pertinente.

Durante la distribuzione iniziale, impostare le regole di impatto del crawler in modo da ridurre al minimo l'impatto su altri server pur continuando a sottoporre a ricerca per indicizzazione una quantità di contenuto sufficiente con la frequenza appropriata per garantire un livello di aggiornamento adeguato del contenuto.

Durante la fase operativa, è possibile modificare le regole di impatto del crawler in base alle esperienze acquisite e ai dati dei registri di ricerca per indicizzazione.

Pianificare le regole di ricerca per indicizzazione

Le regole di ricerca per indicizzazione si applicano a un particolare URL o insieme di URL rappresentati da caratteri jolly (a cui si fa inoltre riferimento come al percorso interessato dalla regola). Si utilizzano le regole di ricerca per indicizzazione per effettuare le seguenti operazioni:

  • Evitare la ricerca per indicizzazione di contenuto non pertinente escludendo uno o più URL. In questo modo viene inoltre ridotto l'utilizzo delle risorse del server e il traffico di rete e viene aumentato il livello di pertinenza dei risultati della ricerca.

  • Eseguire la ricerca per indicizzazione dei collegamenti nell'URL senza includere l'URL stesso nella ricerca per indicizzazione. Questa opzione è utile per siti con collegamenti di contenuto pertinente quando la pagina dei collegamenti non contiene informazioni pertinenti.

  • Consentire la ricerca per indicizzazione di URL complessi. Questa possibilità consente di eseguire la ricerca per indicizzazione di URL che contengono un parametro di query specificato con un punto interrogativo (?). A seconda del sito, questi URL potrebbero includere o non includere contenuto pertinente. Gli URL complessi reindirizzano spesso a siti non pertinenti ed è pertanto consigliabile consentire la ricerca per indicizzazione di URL complessi solo nei siti in cui il contenuto reso disponibile da URL complessi è sicuramente pertinente.

  • Attivare la ricerca per indicizzazione del contenuto sui siti di SharePoint come pagine HTTP. Questa opzione consente al server di indicizzazione di eseguire la ricerca per indicizzazione dei siti di SharePoint che si trovano dietro un firewall o in scenari in cui il sito sottoposto a ricerca per indicizzazione limita l'accesso al servizio Web utilizzato dal crawler.

  • Specificare se utilizzare l'account di accesso predefinito al contenuto, un account di accesso al contenuto diverso o un certificato client per la ricerca per indicizzazione dell'URL specificato.

Nota

Tali regole vengono applicate simultaneamente a tutte le origini di contenuto.

La maggior parte del contenuto di un determinato indirizzo di sito è spesso pertinente, ma non il contenuto di un sito secondario o di un intervallo di siti al di sotto di tale indirizzo di sito. Selezionando una combinazione attiva di URL per cui creare regole di ricerca per indicizzazione che escludano gli elementi non necessari, gli amministratori dei servizi di ricerca possono ottimizzare la pertinenza del contenuto nell'indice, riducendo al tempo stesso l'impatto sulle prestazioni della ricerca per indicizzazione e le dimensioni dei database di ricerca. La creazione di regole di ricerca per indicizzazione per escludere gli URL è particolarmente utile quando si pianificano gli indirizzi iniziali per il contenuto esterno, il cui impatto sull'utilizzo delle risorse esula dal controllo delle persone appartenenti all'organizzazione.

Quando si crea una regola di ricerca per indicizzazione, è possibile utilizzare caratteri jolly standard nel percorso, ad esempio:

  • http://server1/folder* contiene tutte le risorse Web con un URL che inizia con http://server1/folder.

  • *://*.txt include ogni documento con l'estensione del nome di file TXT.

Poiché la ricerca per indicizzazione del contenuto implica l'utilizzo di risorse e larghezza di banda, è consigliabile includere una quantità di contenuto minore ma di sicura pertinenza piuttosto che una quantità maggiore ma non pertinente. Dopo la distribuzione iniziale, è possibile riesaminare la query e i registri di ricerca per indicizzazione, nonché modificare le origini di contenuto e le regole affinché diventino più pertinenti e includano più contenuto.

Specificare un account di accesso al contenuto diverso

Per le regole di ricerca per indicizzazione che includono il contenuto, gli amministratori hanno la possibilità di modificare l'account di accesso al contenuto per la regola. Viene utilizzato l'account predefinito di accesso al contenuto a meno che in una regola non sia specificato un altro account. Il motivo principale per utilizzare un account di accesso al contenuto diverso per una regola di ricerca per indicizzazione è che all'account predefinito di accesso al contenuto non è consentito l'accesso a tutti gli indirizzi iniziali. Per questi indirizzi è possibile creare una regola di ricerca per indicizzazione e specificare un account che disponga dell'accesso.

Nota

Verificare che l'account di dominio utilizzato come account predefinito di accesso al contenuto o qualsiasi altro account di accesso al contenuto non sia lo stesso account di dominio utilizzato da un pool di applicazioni associato a un'applicazione Web sottoposta a ricerca per indicizzazione. Ciò può causare l'indicizzazione e la ricerca per indicizzazione di contenuto non pubblicato dei siti di SharePoint e di versioni secondarie dei file (cronologia) nei siti di SharePoint.

Pianificare le impostazioni di ricerca gestite a livello di farm

Oltre alle impostazioni configurate a livello di Amministrazione ricerca, diverse impostazioni gestite a livello di farm determinano le modalità di ricerca per indicizzazione del contenuto. Prendere in considerazione le seguenti impostazioni di ricerca a livello di farm durante la pianificazione della ricerca per indicizzazione:

Indirizzo di posta elettronica contatto   La ricerca per indicizzazione del contenuto influisce sulle risorse dei server sottoposti a ricerca per indicizzazione. Per poter eseguire la ricerca per indicizzazione del contenuto, è necessario specificare nelle impostazioni di configurazione l'indirizzo di posta elettronica della persona nell'organizzazione che gli amministratori possono contattare nell'eventualità che la ricerca per indicizzazione influisca negativamente sui server. Tale indirizzo di posta elettronica viene visualizzato nei registri per gli amministratori dei server sottoposti a ricerca per indicizzazione, consentendo loro di contattare qualcuno se l'impatto sulle prestazioni e sulla larghezza di banda risulta troppo elevato o nel caso in cui si verifichino altri problemi.

L'indirizzo di posta elettronica del contatto deve appartenere a una persona con le competenze e la disponibilità necessarie per rispondere rapidamente alle richieste. In alternativa, è possibile utilizzare un alias della lista di distribuzione strettamente monitorato come indirizzo di posta elettronica del contatto. Indipendentemente dal fatto che il contenuto sottoposto a ricerca per indicizzazione venga memorizzato o meno all'interno dell'organizzazione, la rapidità dei tempi di risposta è un fattore essenziale.

Impostazioni server proxy   È possibile scegliere se utilizzare un server proxy durante la ricerca per indicizzazione del contenuto. Il server viene scelto in base alla topologia della distribuzione di Server di ricerca 2008 e all'architettura degli altri server dell'organizzazione.

  • Impostazioni timeout   Le impostazioni di timeout vengono utilizzate per limitare il tempo di attesa del server di ricerca durante la connessione ad altri servizi.

  • Impostazione SSL   L'impostazione SSL (Secure Sockets Layer) determina se il certificato SSL deve corrispondere esattamente per eseguire la ricerca per indicizzazione del contenuto.

Indicizzazione del contenuto in lingue diverse

Durante la ricerca per indicizzazione del contenuto, il crawler determina ogni singola parola nel contenuto in cui la trova. Nelle lingue in cui le parole sono separate da spazi è relativamente semplice per il crawler distinguere ogni parola. Nelle altre lingue, individuare la separazione tra le parole può risultare più complesso.

Per impostazione predefinita, in Server di ricerca 2008 sono disponibili word breaker e stemmer che semplificano la ricerca per indicizzazione e l'indicizzazione in molte lingue. I word breaker individuano i confini delle parole nei dati indicizzati full-text, gli stemmer invece coniugano i verbi.

Se si sta eseguendo la ricerca per indicizzazione in una delle lingue elencate nella tabella seguente, Server di ricerca 2008 utilizza automaticamente il word breaker e lo stemmer appropriati per tale lingua. Un asterisco (*) indica che la funzionalità di stemming è attiva per impostazione predefinita.

Lingua supportata per impostazione predefinita Lingua supportata per impostazione predefinita

Arabo

Lituano*

Bengali

Malese

Bulgaro*

Malayalam*

Catalano

Marathi

Croato

Norvegese (Bokmaal)

Ceco*

Polacco*

Danese

Portoghese

Olandese

Portoghese (Brasile)

Inglese

Punjabi

Finlandese*

Romeno*

Francese*

Russo*

Tedesco*

Serbo (alfabeto cirillico)*

Greco*

Serbo (alfabeto latino)*

Gujarati

Slovacco*

Ebraico

Sloveno*

Hindi

Spagnolo*

Ungherese*

Svedese

Islandese*

Tamil*

Indonesiano

Telugu*

Italiano

Thai

Giapponese

Turco*

Kannada*

Ucraino*

Coreano

Urdu*

Lettone*

Vietnamita

Quando il crawler indicizza il contenuto per una lingua non supportata, viene utilizzata l'interruzione neutra. Se l'interruzione neutra non restituisce i risultati previsti, è possibile provare soluzioni di terze parti compatibili con Server di ricerca 2008.

Vedere anche

Utilizzo della federazione (Search Server 2008)