Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Le PII basate su documenti è una funzionalità di anteprima nel rilevamento delle informazioni personali identificabili nel linguaggio AI di Azure. Consente di rilevare e redigire i dati sensibili direttamente nei file di documento nativi, inclusi i file Microsoft Word e PDF, senza creare la propria pipeline di estrazione e ricostruzione del testo.
Questa funzionalità usa un flusso di lavoro API asincrono e restituisce un output redatto che mantiene la struttura e la formattazione dei documenti. È possibile usarlo quando la fedeltà dei documenti è importante per la revisione della conformità, la condivisione, l'analisi e i flussi di lavoro di intelligenza artificiale downstream.
Importante
Le informazioni personali basate su documenti sono attualmente in anteprima e possono cambiare prima della disponibilità generale (GA).
A colpo d'occhio
Le informazioni personali basate su documenti offrono le funzionalità seguenti:
- Redazione documenti nativi per i file
.pdf,.docxe.txt. - Layout mantenuto nei documenti di output, tra cui carattere, spaziatura e colore.
- Un singolo flusso di lavoro API asincrono per estrazione, rilevamento e oscuramento.
- Output pronti per l'organizzazione: un documento redatto e un risultato JSON strutturato.
Dimostrazione video
In questo video viene presentato il servizio di rilevamento delle informazioni personali e viene illustrato come vengono rilevati e corretti i dati sensibili direttamente dai documenti nativi mantenendo al tempo stesso la struttura e la formattazione dei file. Vengono inoltre illustrati i casi d'uso comuni, i formati supportati e come iniziare a usare le informazioni personali basate su documenti in Lingua di Azure AI:
I sottotitoli chiusi sono disponibili per questo video.
Perché usare informazioni personali basate su documenti?
Molte pipeline personalizzate richiedono più passaggi per estrarre testo, eseguire il rilevamento e ricostruire l'output del documento. Le informazioni personali basate su documenti semplificano questo flusso con un unico modello API asincrono e artefatti di output progettati per i sistemi di elaborazione dei documenti.
Le informazioni personali basate su documenti sono particolarmente utili quando è necessario:
- Redigi PII nei file
.pdf,.docxe.txt. - Mantenere il layout del documento per i processi aziendali downstream.
- Generare un output JSON strutturato per il controllo e l'integrazione.
Le informazioni personali basate su documenti usano le stesse categorie di informazioni personali predefinite come informazioni personali di testo, incluse entità come indirizzi, numeri di telefono e numeri di carta di credito.
Cosa restituisce
Quando un processo ha esito positivo, si riceve quanto segue:
- Documento redatto nel contenitore di archiviazione di destinazione.
- Un file di risultati JSON con entità, categorie, punteggi di attendibilità ed elaborazione dei metadati rilevati.
Come funziona
Le PII basate su documenti usano un flusso di lavoro asincrono.
- Inviare un lavoro con percorsi di archiviazione di origine e di destinazione.
- Eseguire interrogazioni periodiche sullo stato del compito usando il percorso dell'operazione.
- Recuperare gli artefatti di output dal percorso di archiviazione di destinazione.
Per informazioni dettagliate sull'implementazione ed esempi di richieste, vedere Rilevare e redigere Informazioni di Identificazione Personale in documenti nativi.
Differenze rispetto ad altri tipi di funzionalità di informazioni personali
Tutti i tipi di funzionalità PII usano categorie di entità predefinite, ma ottimizzano per tipi di input diversi:
- Le informazioni di identificazione personale basate su documenti sono ottimizzate per la redazione di file nativi e la fedeltà dell'output del file.
- Le PII del testo sono ottimizzate per l'integrazione diretta di input basato su stringhe e app.
- Le informazioni personali identificabili della conversazione sono ottimizzate per un input conversazionale basato su turni e orientato alla trascrizione.
Casi d'uso comuni
Le informazioni personali basate su documenti sono progettate per i flussi di lavoro aziendali e regolamentati del settore, in cui i team devono rendere anonimi i file prima dell'archiviazione, dell'analisi, della condivisione esterna o dell'elaborazione downstream dell'IA.
Gli esempi tipici includono:
- Atti giudiziari e documentazione legale.
- Moduli governativi e record interni.
- Documenti finanziari.
- Flussi di lavoro interni della documentazione aziendale.
Formati e limiti supportati
Le PII basate su documenti accettano direttamente formati di file nativi, senza richiedere la pre-elaborazione del testo. Nella tabella seguente sono elencati i formati supportati:
| Tipo di file | Estensione del file | Descrizione |
|---|---|---|
| Text | .txt |
Documento di testo non formattato. |
| Adobe PDF | .pdf |
Documento formattato con file di documento portatile. |
| Microsoft Word | .docx |
File di documento Microsoft Word. |
Si applicano i vincoli di input seguenti:
| Attribute | Limit |
|---|---|
| Totale documenti per richiesta | <= 20 |
| Dimensioni totali del contenuto per richiesta | <= 10 MB |
I tipi di contenuto seguenti non sono supportati:
| Tipo | Limitation |
|---|---|
| PDF completamente scansionati | Non supportato. |
| Immagini con testo incorporato | Le immagini digitali con testo incorporato non sono supportate. |
| Tabelle nei documenti analizzati | Non supportato. |
Per informazioni dettagliate sulla copertura linguistica e sui limiti dei servizi, vedere supporto linguistico e quote e limiti della lingua correnti.
Pricing
La redazione delle PII basata su documenti utilizza i prezzi di Lingua di Azure AI. Per i dettagli sui prezzi attuali, vedere i prezzi di Lingua di Azure AI.
Passaggi successivi
Usare i riferimenti seguenti per continuare l'implementazione: