Ulteriori informazioni sui tipi di informazioni riservate

Identificare e classificare gli elementi sensibili sotto il controllo dell'organizzazione è il primo passaggio della disciplina Information Protection. Microsoft Purview offre tre modi per identificare gli elementi in modo che possano essere classificati:

manualmente, dagli utenti
tramite il riconoscimento automatico dei modelli, come con i tipi di informazioni sensibili
tramite Machine Learning

I tipi di informazioni sensibili (SIT) sono classificatori basati su pattern. Rilevano informazioni sensibili come i numeri di previdenza sociale, carta di credito o conto bancario per identificare gli elementi sensibili. Per un elenco completo di tutti i SIT, vedere Definizioni di entità del tipo di informazioni sensibili .

Microsoft offre un numero elevato di SIT preconfigurati oppure è possibile crearne uno personalizzato.

Licenze

La licenza E5 è necessaria per usare i SIT di analisi delle credenziali. Per un elenco di tutti i SIT di analisi delle credenziali, vedere Tutti i tipi di informazioni riservate delle credenziali. Questo SIT contiene tutti i SIT di analisi delle credenziali disponibili nel portale. Ogni membro di questo SIT è un sit di analisi delle credenziali e può essere usato come autonomo. Per un elenco di molti SIT creati da Microsoft, vedere Definizioni di entità del tipo di informazioni riservate.

I tipi di informazioni riservate vengono usati in

Categorie di tipi di informazioni riservate

Tipi di informazioni sensibili predefiniti

Microsoft ha creato questi SIT e vengono visualizzati nel portale di Purview per impostazione predefinita. Questi SIT non possono essere modificati, ma è possibile usarli come modelli copiandoli per creare tipi di informazioni sensibili personalizzati. Vedere Definizioni di entità del tipo di informazioni riservate per un elenco completo di tutti i SIT.

Tipi di informazioni sensibili alle entità denominate

I SIT delle entità denominate vengono visualizzati anche nel portale di Purview per impostazione predefinita. Rilevano nomi di persona, indirizzi fisici e termini e condizioni mediche. Non possono essere modificati o copiati. Per altre informazioni, vedere Informazioni sulle entità denominate.

I SIT di entità denominate sono disponibili in due tipi:

non in bundle

Questi SIT di entità denominate hanno uno stato attivo più ristretto, ad esempio un singolo paese o area geografica o una singola classe di termini. Usarli quando è necessario un criterio di prevenzione della perdita dei dati (DLP) con un ambito di rilevamento più ristretto. Vedere Esempi di SIT di entità denominate.

affastellato

I SIT di entità denominate in bundle rilevano tutte le possibili corrispondenze in una classe, ad esempio Tutti gli indirizzi fisici. Usarli come criteri generali nei criteri DLP per rilevare gli elementi sensibili. Vedere Esempi di SIT di entità denominate.

Tipi di informazioni sensibili personalizzati

Se i tipi di informazioni sensibili preconfigurati non soddisfano le proprie esigenze, è possibile creare tipi di informazioni sensibili personalizzati che si definiscono completamente oppure copiare uno dei tipi predefiniti e modificarli. Per ulteriori informazioni, vedere

Creare un tipo di informazioni sensibili personalizzato nel portale di Microsoft Purview.

I dati esatti corrispondono ai tipi di informazioni sensibili

Tutti i SIT basati sulla corrispondenza dei dati esatti (EDM) vengono creati da zero. Vengono usate per rilevare elementi con valori esatti, definiti in un database di informazioni riservate. Per altre informazioni, vedere Informazioni sui tipi di informazioni sensibili basati sulle corrispondenze esatte dei dati.

Parti fondamentali di un tipo di informazioni sensibili

Ogni entità del tipo di informazioni sensibili (SIT) è costituita dai campi seguenti:

Nome: Indica il modo in cui viene fatto riferimento al tipo di informazioni riservate.
Descrizione: Spiegazione di ciò che il tipo di informazioni riservate sta cercando.
Modello: Definisce ciò che un SIT rileva. È costituito dai componenti seguenti: elemento primario, elementi di supporto, livello di confidenza e prossimità.

La tabella seguente descrive ogni componente dei modelli usati per definire i tipi di informazioni sensibili.

Componente modello	Descrizione
Elemento primario	Elemento principale cercato dal tipo di informazioni riservate. Può essere un'espressione regolare con o senza convalida del checksum, un elenco di parole chiave, un dizionario di parole chiave o una funzione. Ognuno di questi tipi di elementi può essere selezionato dall'elenco dei SIT esistenti o può essere definito in modo personalizzato da un utente con autorizzazioni di amministratore. Una volta definito, un elemento viene visualizzato nell'elenco degli elementi esistenti, insieme a quelli incorporati.
Elemento di supporto	Elemento che funge da prova corroborativa. Se inclusi, gli elementi di supporto consentono di aumentare il livello di attendibilità rispetto all'accuratezza delle corrispondenze rilevate. Ad esempio, se l'elemento primario è definito come `SSN` (composto da nove cifre) e la parola chiave Social Security Number (SSN) viene usata come elemento di supporto quando viene trovata in prossimità di `SSN`, la certezza che il `SSN` rilevato sia effettivamente un numero di previdenza sociale è superiore a quello che non è presente la parola chiave SSN (Social Security Number). Un elemento di supporto può essere un'espressione regolare (con o senza convalida checksum), un elenco di parole chiave o un dizionario di parole chiave.
Livello di sicurezza	Esistono tre livelli di confidenza per quanto riguarda le corrispondenze rilevate: alta, media e bassa. Il livello di attendibilità riflette la quantità di prove di supporto rilevate insieme all'elemento primario. Maggiore è l'evidenza di supporto che contiene un elemento rilevato, maggiore è la probabilità che un elemento corrispondente contenga le informazioni sensibili che stai cercando. Per altre informazioni sui livelli di attendibilità, vedere il video incluso più avanti in questo articolo.
Prossimità	Specifica la vicinanza di un elemento di supporto a un elemento primario, in termini di numero di caratteri tra di essi.

Informazioni sulla prossimità

Il diagramma seguente mostra come funziona il rilevamento delle corrispondenze rispetto alla prossimità. In questo esempio, l'elemento primario è il SSN campo e la definizione SIT richiede che ogni istanza di un SSN valore sia all'interno di una prossimità specificata ad almeno uno degli elementi seguenti:

AccountNumber
Name
DateOfBirth

Nel diagramma si nota che i dati controllati includono tre diverse istanze del SSN campo: SSN1, SSN2, SSN3e SSN4.

Per comprendere il funzionamento della prossimità, si inizierà esaminando alcuni criteri di rilevamento di esempio. In questo caso, si vuole rilevare i numeri di previdenza sociale a nove cifre. I criteri di rilevamento richiedono che venga trovata un'espressione regolare a nove cifre (elemento primario) in combinazione con l'evidenza di supporto (tra i AccountNumbercampi , Namee DateOfBirth ) che viene visualizzata entro 250 caratteri ( prossimità).

Come illustrato nel diagramma, solo gli elementi SSN1 primari e SSN4 soddisfano i criteri di rilevamento descritti. Contenuto della sezione:

Nel caso di SSN1, il AccountNumber valore si trova all'interno della finestra di prossimità specificata di 250 caratteri, quindi viene rilevata una corrispondenza.
In entrambi i casi di SSN2 e SSN3, nessuno degli elementi di supporto si verifica entro 250 caratteri dell'elemento primario, quindi tali valori non vengono rilevati come corrispondenza. Tuttavia, quando si esamina la finestra di prossimità per SSN2 nel diagramma, si potrebbe chiedere: Perché non c'è una corrispondenza per SSN2? La finestra di prossimità non SSN2 si estende all'elemento Name ? Questa è una buona domanda. La risposta è: Non proprio. Anche se la finestra di prossimità si estende nelName valore, non include l'intero valore, quindi il modello non corrisponde.
Infine, nel caso di SSN4, sono presenti due elementi di supporto all'interno della finestra di prossimità, entrambi Name e DateOfBirth, quindi anche questo modello corrisponde.

Altre informazioni sui livelli di attendibilità sono disponibili in questo breve video.

Esempio di tipo di informazioni riservate

Numero di carta di identità (DNI) argentino

Formato

Otto cifre separate da spazi

Criterio

Otto cifre

due cifre
un periodo
tre cifre
un periodo
tre cifre

Checksum

Definizione

Un criterio DLP ha una media probabilità di aver rilevato questo tipo di informazioni riservate se, entro una prossimità di 250 caratteri:

L'espressione regolare Regex_argentina_national_id trova il contenuto corrispondente al modello.
Viene trovata una parola chiave da Keyword_argentina_national_id.

<!-- Argentina National Identity (DNI) Number -->
<Entity id="00aa00aa-bb11-cc22-dd33-44ee44ee44ee" recommendedConfidence="75" patternsProximity="250">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>

Parole chiave

Keyword_argentina_national_id

Argentina - Numero di identità nazionale
Identità
Carta d'identità nazionale di identificazione
DNI
Registro nazionale delle persone (NIC)
Documento Nacional de Identidad
Registro Nacional de las Personas
Identidad
Identificación

Maggiori informazioni sui livelli di confidenza

In una definizione di entità del tipo di informazioni riservate, il livello di attendibilità riflette la quantità di prove di supporto rilevate oltre all'elemento primario. Maggiore è l'evidenza di supporto che contiene un elemento, maggiore è la probabilità che un elemento corrispondente contenga le informazioni sensibili che stai cercando. Ad esempio, le corrispondenze con un livello di confidenza elevato contengono più prove di supporto in prossimità dell'elemento primario, mentre le corrispondenze con un livello di confidenza basso contengono poche o nessuna evidenza di supporto in prossimità.

Un livello di confidenza elevato restituisce il minor numero di falsi positivi, ma potrebbe causare più falsi negativi. I livelli di attendibilità bassa o media restituiscono più falsi positivi, ma da pochi a zero falsi negativi.

bassa attendibilità: gli elementi corrispondenti contengono il minor numero di falsi negativi, ma il maggior numero di falsi positivi. La bassa confidenza restituisce tutte le corrispondenze di attendibilità bassa, media e alta. Il livello di confidenza basso ha un valore pari a 65.
attendibilità media: gli elementi corrispondenti contengono un numero medio di falsi positivi e falsi negativi. La confidenza media restituisce tutte le corrispondenze di attendibilità medie e elevate. Il livello di attendibilità medio ha un valore pari a 75.
confidenza elevata: gli elementi corrispondenti contengono il minor numero di falsi positivi, ma il maggior numero di falsi negativi. L'attendibilità elevata restituisce solo corrispondenze con attendibilità elevata e ha un valore pari a 85.

È consigliabile usare modelli a livello di attendibilità elevata con conteggi bassi, ad esempio da cinque a 10, e modelli di confidenza bassa con conteggi più elevati, ad esempio 20 o più.

Nota

Se sono stati definiti criteri o tipi di informazioni sensibili (SIT) personalizzati usando livelli di attendibilità basati sui numeri (noti anche come accuratezza), verranno mappati automaticamente ai tre livelli di attendibilità discreta; confidenza bassa, confidenza media e attendibilità elevata nell'interfaccia utente security @ Compliance Center.

Tutti i criteri con accuratezza minima o modelli SIT personalizzati con livelli di attendibilità compresi tra 76 e 100 verranno mappati a un livello di attendibilità elevato.
Tutti i criteri con accuratezza minima o modelli SIT personalizzati con livelli di attendibilità compresi tra 66 e 75 verranno mappati a un livello di attendibilità medio.
Tutti i criteri con accuratezza minima o modelli SIT personalizzati con livelli di attendibilità inferiori o uguali a 65 verranno mappati a una bassa attendibilità.

Creazione dei tipi di informazioni sensibili personalizzati

È possibile scegliere tra diverse opzioni per creare tipi di informazioni sensibili personalizzati.

Usare l'interfaccia utente : è possibile configurare un tipo di informazioni sensibili personalizzato usando l'interfaccia utente del portale di Purview. Con questo metodo, è possibile usare espressioni regolari, parole chiave e dizionari di parole chiave. Per saperne di più, vedere Creare un tipo di informazioni sensibili personalizzato.
Usare EDM : è possibile configurare tipi di informazioni sensibili personalizzati usando la classificazione basata su Exact Data Match (EDM). Questo metodo consente di creare un tipo di informazioni sensibili dinamico usando un database protetto che è possibile aggiornare periodicamente. Vedere Informazioni sui tipi di informazioni sensibili basati sulla corrispondenza dei dati esatti.
Usare PowerShell : è possibile configurare tipi di informazioni sensibili personalizzati usando PowerShell. Anche se questo metodo è più complesso rispetto all'utilizzo dell'interfaccia utente, offre più opzioni di configurazione. Vedere Creare un tipo di informazioni sensibili personalizzato in PowerShell sicurezza & conformità.

Ottimizzazione dei classificatori sottoponibili a training

La prevenzione della perdita dei dati degli endpoint classifica i file in base a tutti i tipi di informazioni sensibili disponibili nel tenant, inclusi i tipi di informazioni sensibili personalizzati, indipendentemente dal loro utilizzo nei criteri DLP. Ciò può causare un traffico di classificazione eccessivo se i tipi di informazioni sensibili non sono ottimizzati correttamente e finiscono per corrispondere a molti file. È consigliabile ottimizzare tutti i tipi di informazioni sensibili personalizzati. A tale scopo, rimuovere i tipi di informazioni sensibili inutilizzati e riprogettare i SIT se corrispondono alla maggior parte dei file dell'organizzazione. Per indicazioni sull'uso dei validator SIT Regex per ottimizzare i SIT, vedere: Tipi di informazioni sensibili validator REGEX e controllo aggiuntivo

Supporto del set di caratteri a byte doppio

I livelli di attendibilità migliorati sono disponibili per l'uso immediato all'interno di servizi Prevenzione della perdita dei dati Microsoft Purview, protezione delle informazioni, conformità delle comunicazioni, gestione del ciclo di vita dei dati e gestione dei record.

Information Protection supporta ora le lingue del set di caratteri a doppio byte per:
Cinese (semplificato)
Cinese (tradizionale)
Coreano
Giapponese

Il supporto è disponibile per i tipi di informazioni sensibili. Per altre informazioni, vedere Supporto della protezione delle informazioni per le note sulla versione dei set di caratteri a due byte.

Supporto del set di caratteri a byte singolo

Per rilevare modelli contenenti caratteri cinesi/giapponesi e caratteri a byte singolo o per rilevare modelli contenenti caratteri cinesi/giapponesi e inglesi, definire due varianti della parola chiave o dell'espressione regolare.

Ad esempio, per rilevare una parola chiave come "机密的document", usare due varianti della parola chiave: una con uno spazio tra il testo giapponese e quello inglese e un'altra senza spazio tra il testo giapponese e quello inglese. Quindi, le parole chiave da aggiungere nel SIT devono essere "机密的 document" e "机密的document". Analogamente, per rilevare la frase "東京オリンピック2020", devono essere usate due varianti: "東京オリンピック 2020" e "東京オリンピック2020".

Insieme ai caratteri cinese/giapponese/a byte doppio, se l'elenco di parole chiave/frasi contiene anche parole non cinesi/giapponesi (ad esempio, solo in inglese), è necessario creare due dizionari/elenchi di parole chiave. Una per le parole chiave contenenti caratteri cinese/giapponese/a byte doppio e un'altra per le parole chiave solo in inglese. Ad esempio, se si vuole creare un dizionario/elenco di parole chiave con tre frasi "Altamente riservato", "機密性が的的" e "机密的document", è necessario creare due elenchi di parole chiave.

Estremamente riservato
機密性が的的, 机密的document e 机密的 documento Durante la creazione di un regex usando un trattino a doppio byte o un periodo a doppio byte, assicurarsi di eseguire l'escape di entrambi i caratteri come se si desidera eseguire l'escape di un trattino o di un punto in un regex. Ecco un esempio di regex per riferimento: (?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

È consigliabile usare la corrispondenza stringa anziché la corrispondenza di parole in un elenco di parole chiave.

Testare il tipo di informazioni riservate

È possibile testare sit caricando un file di esempio. I risultati del test mostrano il numero di corrispondenze per ogni livello di attendibilità. È possibile testare SIT predefiniti, SIT personalizzati, classificatori sottoponibili a training e corrispondenza esatta dei dati.

Testare il tipo di informazioni riservate predefinite e personalizzate

I dati esatti di test corrispondono al tipo di informazioni riservate.

Per testare qualsiasi tenant SIT personalizzato o predefinito, è necessario aggiungere almeno una licenza Exchange Online al tenant. In caso contrario, l'opzione Test SIT verrà disattivata quando viene selezionato un sit qualsiasi.

Fornire un feedback sull'accuratezza delle corrispondenze o meno nei tipi di informazioni sensibili

È possibile visualizzare il numero di corrispondenze di un SIT in Tipi di informazioni sensibili ed Esplora contenuto. È anche possibile fornire commenti e suggerimenti sul fatto che un elemento sia effettivamente una corrispondenza o meno usando il meccanismo match, Not a Match feedback e usare tale feedback per ottimizzare i SIT. Per altre informazioni, vedere Aumentare l'accuratezza del classificatore.

Per ulteriori informazioni

Per informazioni su come usare i tipi di informazioni sensibili per rispettare le normative sulla privacy dei dati, vedere Distribuire la protezione delle informazioni per le normative sulla privacy dei dati con Microsoft 365 (aka.ms/m365dataprivacy).

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2024-12-13