Elementi parzialmente indicizzati in Ricerca contenuto
Consiglio
eDiscovery (anteprima) è ora disponibile nel nuovo portale di Microsoft Purview. Per altre informazioni sull'uso della nuova esperienza di eDiscovery, vedere Informazioni su eDiscovery (anteprima).
Una ricerca contenuto eseguita dal portale di conformità di Microsoft Purview include automaticamente elementi parzialmente indicizzati nei risultati della ricerca stimati quando si esegue una ricerca. Gli elementi parzialmente indicizzati sono elementi e documenti delle cassette postali di Exchange nei siti di SharePoint e OneDrive for Business che per qualche motivo non sono stati completamente indicizzati per la ricerca. In Exchange, un elemento parzialmente indicizzato contiene in genere un file (di un tipo di file che non può essere indicizzato) collegato a un messaggio di posta elettronica. Ecco alcuni altri motivi per cui gli elementi non possono essere indicizzati per la ricerca e vengono restituiti come elementi parzialmente indicizzati quando si esegue una ricerca di eDiscovery:
- Il tipo di file non è riconosciuto o supportato per l'indicizzazione.
- I messaggi hanno un file allegato che non può essere aperto; questa è la causa più comune di elementi di posta elettronica parzialmente indicizzati.
- Il tipo di file è supportato per l'indicizzazione ma si è verificato un errore di indicizzazione per un file specifico.
- Troppi file allegati a un messaggio di posta elettronica.
- Un file allegato a un messaggio di posta elettronica è troppo grande.
- Un file è crittografato con tecnologie non Microsoft.
- Un file è protetto da password.
Nota
La maggior parte delle organizzazioni ha meno dell'1% del contenuto in base al volume e meno del 12% in base alle dimensioni parzialmente indicizzate. La differenza tra volume e dimensioni è che i file di dimensioni maggiori hanno una probabilità maggiore di contenere contenuto che non può essere indicizzato completamente.
Per le indagini legali, all'organizzazione potrebbe essere richiesto di esaminare gli elementi parzialmente indicizzati. È anche possibile specificare se includere elementi parzialmente indicizzati quando si esportano i risultati della ricerca in un computer locale o quando si preparano i risultati per l'analisi con eDiscovery (Premium). Per altre informazioni, vedere Analisi degli elementi parzialmente indicizzati in eDiscovery.
Consiglio
Se non si è un cliente E5, usare la versione di valutazione delle soluzioni Microsoft Purview di 90 giorni per esplorare in che modo funzionalità aggiuntive di Purview possono aiutare l'organizzazione a gestire le esigenze di sicurezza e conformità dei dati. Iniziare ora dall'hub delle versioni di valutazione del portale di conformità di Microsoft Purview. Informazioni dettagliate sull'iscrizione e le condizioni di valutazione.
Tipi di file non indicizzati per la ricerca
Alcuni tipi di file, ad esempio i file Bitmap (.bmp) o MP3 (.mp3), non contengono contenuto che può essere indicizzato. Di conseguenza, i server di indicizzazione di ricerca in Exchange e SharePoint non eseguono l'indicizzazione full-text su questi tipi di file. Questi tipi di file sono considerati tipi di file non supportati. Esistono anche tipi di file pe i quali l'indicizzazione di testo completo è stata disattivata, o per impostazione predefinita o da un amministratore. I tipi di file non supportati e disabilitati vengono etichettati come elementi non indicizzati in Ricerche contenuto. Come indicato in precedenza, gli elementi parzialmente indicizzati possono essere inclusi nel set di risultati della ricerca quando si esegue una ricerca, si esportano i risultati della ricerca in un computer locale o si preparano i risultati della ricerca per eDiscovery (Premium).
Per un elenco dei formati di file supportati e disabilitati, vedere gli articoli seguenti:
- Sostituzione - Formati di file indicizzati da Ricerca di Exchange
- Sostituzione - Get-SearchDocumentFormat
- SharePoint - Estensioni del nome file sottoposte a ricerca per indicizzazione predefinite e tipi di file analizzati in SharePoint
I messaggi e i documenti con tipi di file parzialmente indicizzati possono essere restituiti nei risultati della ricerca
Non tutti i messaggi di posta elettronica con un file allegato parzialmente indicizzato o tutti i documenti di SharePoint parzialmente indicizzati vengono restituiti automaticamente come elemento parzialmente indicizzato. Ciò è dovuto al fatto che altre proprietà di messaggi o documenti, ad esempio la proprietà Subject nei messaggi di posta elettronica e le proprietà Title o Author per i documenti, sono indicizzate e disponibili per la ricerca. Ad esempio, una ricerca di parole chiave per "financial" restituirà elementi con un file allegato parzialmente indicizzato se tale parola chiave viene visualizzata nell'oggetto di un messaggio di posta elettronica o nel nome file o nel titolo di un documento. Tuttavia, se la parola chiave viene visualizzata solo nel corpo del file, il messaggio o il documento verrà restituito come elemento parzialmente indicizzato.
Analogamente, i messaggi con file allegati parzialmente indicizzati e documenti di un tipo di file parzialmente indicizzato vengono inclusi nei risultati della ricerca quando altre proprietà di messaggi o documenti, indicizzate e ricercabili, corrispondono ai criteri di ricerca. Le proprietà del messaggio che vengono indicizzate per la ricerca includono le date di invio e ricezione, il mittente e il destinatario, il nome del file di un allegato e il testo nel corpo del messaggio. Le proprietà del documento indicizzate per la ricerca includono le date create e modificate. Pertanto, anche se un allegato del messaggio può essere un elemento parzialmente indicizzato, il messaggio verrà incluso nei normali risultati della ricerca se il valore di altre proprietà del messaggio o del documento corrisponde ai criteri di ricerca.
Per un elenco delle proprietà di posta elettronica e documento che è possibile cercare usando gli strumenti di eDiscovery nel portale di conformità, vedere Query con parole chiave e condizioni di ricerca per eDiscovery.
Nota
Se un elemento della cassetta postale viene spostato da una cartella indicizzata a una cartella non indicizzata, un flag viene impostato per annullare l'indicizzazione dell'elemento e l'elemento viene rimosso dall'indice e non sarà ricercabile. In seguito, se lo stesso elemento viene spostato nuovamente in una cartella indicizzata, il flag non viene reimpostato. Ciò significa che l'elemento rimarrà non indicizzato e non ricercabile.
Elementi parzialmente indicizzati inclusi nei risultati della ricerca
All'organizzazione potrebbe essere richiesto di identificare ed eseguire analisi aggiuntive sugli elementi parzialmente indicizzati per determinare cosa sono, cosa contengono e se sono rilevanti per un'indagine specifica. Come spiegato in precedenza, gli elementi parzialmente indicizzati nei percorsi del contenuto in cui viene eseguita la ricerca vengono inclusi automaticamente con i risultati della ricerca stimati. È possibile includere questi elementi parzialmente indicizzati quando si esportano i risultati della ricerca o si preparano i risultati della ricerca per eDiscovery (Premium).
Tenere presente quanto segue sugli elementi parzialmente indicizzati:
Quando si esegue una ricerca di eDiscovery, il numero totale e le dimensioni degli elementi di Exchange parzialmente indicizzati (restituiti dalla query di ricerca) vengono visualizzati nelle statistiche di ricerca nella pagina a comparsa ed etichettati come elementi non indicizzati. Le statistiche sugli elementi parzialmente indicizzati visualizzati nella pagina a comparsa non includono elementi parzialmente indicizzati nei siti di SharePoint o negli account di OneDrive.
Se la ricerca da cui si esportano i risultati è stata una ricerca di posizioni di contenuto specifiche o di tutti i percorsi di contenuto nell'organizzazione, verranno esportati solo gli elementi non indicizzati provenienti da posizioni di contenuto contenenti elementi che corrispondono ai criteri di ricerca. In other words, if no search results are found in a mailbox or site, then any unindexed items in that mailbox or site won't be exported. Il motivo è che l'esportazione di elementi parzialmente indicizzati da molte posizioni dell'organizzazione potrebbe aumentare la probabilità di errori di esportazione e aumentare il tempo necessario per esportare e scaricare i risultati della ricerca.
Per esportare elementi parzialmente indicizzati da tutti i percorsi del contenuto per una ricerca, configurare la ricerca per restituire tutti gli elementi (rimuovendo le parole chiave dalla query di ricerca) e quindi esportare solo gli elementi parzialmente indicizzati quando si esportano i risultati della ricerca selezionando Solo gli elementi che hanno un formato non riconosciuto, sono crittografati o non sono stati indicizzati per altri motivi in Opzioni di output.
Se si sceglie di includere tutti gli elementi della cassetta postale nei risultati della ricerca o se una query di ricerca non specifica parole chiave o specifica solo un intervallo di date, gli elementi parzialmente indicizzati potrebbero non essere copiati nel file PST che contiene gli elementi parzialmente indicizzati. Questo perché tutti gli elementi, inclusi quelli parzialmente indicizzati, verranno automaticamente inclusi nei normali risultati della ricerca.
Gli elementi parzialmente indicizzati non sono disponibili per l'anteprima. È necessario esportare i risultati della ricerca per visualizzare gli elementi parzialmente indicizzati restituiti dalla ricerca.
Inoltre, quando si esportano i risultati della ricerca e si includono elementi parzialmente indicizzati nell'esportazione, gli elementi parzialmente indicizzati da elementi di SharePoint vengono esportati in una cartella denominata Uncrawlable. Quando si esportano elementi di Exchange parzialmente indicizzati, vengono esportati in modo diverso a seconda che gli elementi parzialmente indicizzati corrispondano alla query di ricerca e alla configurazione delle impostazioni di esportazione.
La tabella seguente illustra il comportamento di esportazione degli elementi indicizzati e parzialmente indicizzati e indica se ognuno di essi è incluso o meno per le diverse impostazioni di configurazione dell'esportazione.
Configurazione dell'esportazione Elementi indicizzati che corrispondono alla query di ricerca Elementi parzialmente indicizzati che corrispondono alla query di ricerca Elementi parzialmente indicizzati che non corrispondono alla query di ricerca Esportare solo gli elementi indicizzati Esportato Esportato (incluso con gli elementi indicizzati esportati) Non esportato Esportare solo elementi parzialmente indicizzati Non esportato Esportato (come elementi parzialmente indicizzati) Esportato (come elementi parzialmente indicizzati) Esportare elementi indicizzati e parzialmente indicizzati Esportato Esportato (incluso con gli elementi indicizzati esportati) Esportato (come elementi parzialmente indicizzati)
Intervalli di date ed esclusi gli elementi parzialmente indicizzati
In Ricerca contenuto e Microsoft Purview eDiscovery non è possibile usare un intervallo di date per escludere gli elementi parzialmente indicizzati da una query di ricerca. In altre parole, gli elementi parzialmente indicizzati che non rientrano in un intervallo di date sono ancora inclusi come elementi parzialmente indicizzati nelle statistiche di ricerca e quando si esportano elementi parzialmente indicizzati. In eDiscovery (Premium), gli elementi parzialmente indicizzati possono essere raccolti e quindi filtrati in un set di revisione prima dell'esportazione.
Limiti di indicizzazione per i messaggi
Nella tabella seguente vengono descritti i limiti di indicizzazione che potrebbero comportare la restituzione di un messaggio di posta elettronica come elemento parzialmente indicizzato in una ricerca di eDiscovery in Microsoft 365.
Per un elenco dei limiti di indicizzazione per i documenti di SharePoint, vedere Limiti di ricerca per SharePoint Online.
Limite di indicizzazione | Note | Descrizione |
---|---|---|
Dimensioni massime degli allegati (esclusi i file di Excel) |
150 MB |
Dimensioni massime di un allegato di posta elettronica che verrà analizzato per l'indicizzazione. Qualsiasi allegato maggiore di questo limite non verrà analizzato per l'indicizzazione e il messaggio con l'allegato verrà contrassegnato come parzialmente indicizzato. Nota: L'analisi è il processo in cui il servizio di indicizzazione estrae il testo dall'allegato, rimuove i caratteri non necessari come punteggiatura e spazi e quindi divide il testo in parole (in un processo denominato tokenizzazione), che vengono quindi archiviate nell'indice. |
Dimensioni massime dei file di Excel |
4 MB |
Dimensioni massime di un file di Excel che si trova in un sito o collegato a un messaggio di posta elettronica che verrà analizzato per l'indicizzazione. Tutti i file di Excel maggiori di questo limite non verranno analizzati e il file o il messaggio di posta elettronica con il file allegato verrà contrassegnato come non indicizzato. |
Numero massimo di allegati |
250 |
Numero massimo di file allegati a un messaggio di posta elettronica che verrà analizzato per l'indicizzazione. Se un messaggio contiene più di 250 allegati, i primi 250 allegati vengono analizzati e indicizzati e il messaggio viene contrassegnato come parzialmente indicizzato perché contiene allegati aggiuntivi che non sono stati analizzati. |
Profondità massima degli allegati |
30 |
Numero massimo di allegati annidati analizzati. Ad esempio, se a un messaggio di posta elettronica è associato un altro messaggio e al messaggio allegato è associato un documento di Word, il documento di Word e il messaggio allegato verranno indicizzati. Questo comportamento continuerà per un massimo di 30 allegati annidati. |
Numero massimo di immagini collegate |
0 |
Un'immagine collegata a un messaggio di posta elettronica viene ignorata dal parser e non viene indicizzata. |
Tempo massimo impiegato per l'analisi di un elemento |
30 secondi |
Per l'indicizzazione viene impiegato un massimo di 30 secondi per l'analisi di un elemento. Se il tempo di analisi supera i 30 secondi, l'elemento viene contrassegnato come parzialmente indicizzato. |
Output massimo del parser |
2 milioni di caratteri |
Quantità massima di output di testo dal parser indicizzato. Ad esempio, se il parser ha estratto 8 milioni di caratteri da un documento, vengono indicizzati solo i primi 2 milioni di caratteri. |
Numero massimo di token di annotazione |
2 milioni |
Quando un messaggio di posta elettronica viene indicizzato, ogni parola viene annotata con istruzioni di elaborazione diverse che specificano la modalità di indicizzazione di tale parola. Ogni set di istruzioni di elaborazione è denominato token di annotazione. Per mantenere la qualità del servizio in Office 365, è previsto un limite di 2 milioni di token di annotazione per un messaggio di posta elettronica. |
Dimensioni massime del corpo nell'indice |
67 milioni di caratteri |
Numero totale di caratteri nel corpo di un messaggio di posta elettronica e di tutti i relativi allegati. Quando un messaggio di posta elettronica viene indicizzato, tutto il testo nel corpo del messaggio e in tutti gli allegati viene concatenato in una singola stringa. La dimensione massima di questa stringa indicizzata è di 67 milioni di caratteri. |
Numero massimo di token univoci nel corpo |
1 milione |
Come spiegato in precedenza, i token sono il risultato dell'estrazione del testo dal contenuto, della rimozione della punteggiatura e degli spazi e quindi della divisione in parole (denominate token) archiviate nell'indice. Ad esempio, la frase "cat, mouse, bird, dog, dog" contiene 5 token. Ma solo 4 di questi sono token univoci. Esiste un limite di 1 milione di token univoci per messaggio di posta elettronica, che consente di evitare che l'indice diventi troppo grande con token casuali. |
Altre informazioni sugli elementi parzialmente indicizzati
- Come indicato in precedenza, poiché le proprietà del messaggio e del documento e i relativi metadati sono indicizzati, una ricerca di parole chiave potrebbe restituire risultati se tale parola chiave viene visualizzata nei metadati indicizzati. Tuttavia, la stessa ricerca di parole chiave potrebbe non restituire lo stesso elemento se la parola chiave viene visualizzata solo nel contenuto di un elemento con un tipo di file non supportato. In questo caso, l'elemento verrà restituito come elemento parzialmente indicizzato.
- Se nei risultati della ricerca è incluso un elemento parzialmente indicizzato perché corrisponde ai criteri della query di ricerca, non viene incluso negli elementi parzialmente indicizzati quando si esportano i risultati della ricerca.
- Sebbene un tipo di file sia supportato per l'indicizzazione e sia indicizzato, possono verificarsi errori di indicizzazione o ricerca che causano la restituzione di un file come elemento parzialmente indicizzato. Ad esempio, la ricerca in un file di Excel di grandi dimensioni potrebbe avere esito positivo (perché i primi 4 MB sono indicizzati), ma non riesce perché viene superato il limite di dimensioni del file. In questo caso, è possibile che lo stesso file venga restituito con i risultati della ricerca e come elemento parzialmente indicizzato.
- I file crittografati con tecnologie di crittografia Microsoft e collegati a un messaggio di posta elettronica che corrisponde ai criteri di una ricerca possono essere visualizzati in anteprima e decrittografati quando vengono esportati. Al momento, i file crittografati con le tecnologie di crittografia Microsoft (e archiviati in SharePoint o OneDrive for Business) sono parzialmente indicizzati.
- I messaggi di posta elettronica crittografati con S/MIME sono parzialmente indicizzati. Sono inclusi i messaggi crittografati con o senza allegati.
- I messaggi di posta elettronica protetti con Azure Rights Management vengono indicizzati e verranno inclusi nei risultati della ricerca se corrispondono alla query di ricerca. I messaggi di posta elettronica protetti da diritti vengono decrittografati e possono essere visualizzati in anteprima ed esportati. Questa funzionalità richiede l'assegnazione del ruolo Decrittografia RMS, assegnato per impostazione predefinita al gruppo di ruoli di eDiscover Manager.
- Se si crea un blocco basato su query associato a un caso di eDiscovery, tutti gli elementi parzialmente indicizzati vengono messi in attesa. Sono inclusi elementi parzialmente indicizzati che non corrispondono ai criteri di query di ricerca per il blocco. Per altre informazioni sulla creazione di blocchi di eDiscovery basati su query, vedere Creare un blocco di eDiscovery.