Panoramica delle informazioni personali basate su documenti

Le PII basate su documenti è una funzionalità di anteprima nel rilevamento delle informazioni personali identificabili nel linguaggio AI di Azure. Consente di rilevare e redigire i dati sensibili direttamente nei file di documento nativi, inclusi i file Microsoft Word e PDF, senza creare la propria pipeline di estrazione e ricostruzione del testo.

Questa funzionalità usa un flusso di lavoro API asincrono e restituisce un output redatto che mantiene la struttura e la formattazione dei documenti. È possibile usarlo quando la fedeltà dei documenti è importante per la revisione della conformità, la condivisione, l'analisi e i flussi di lavoro di intelligenza artificiale downstream.

Importante

Le informazioni personali basate su documenti sono attualmente in anteprima e possono cambiare prima della disponibilità generale (GA).

A colpo d'occhio

Le informazioni personali basate su documenti offrono le funzionalità seguenti:

  • Redazione documenti nativi per i file .pdf, .docx e .txt.
  • Layout mantenuto nei documenti di output, tra cui carattere, spaziatura e colore.
  • Un singolo flusso di lavoro API asincrono per estrazione, rilevamento e oscuramento.
  • Output pronti per l'organizzazione: un documento redatto e un risultato JSON strutturato.

Dimostrazione video

In questo video viene presentato il servizio di rilevamento delle informazioni personali e viene illustrato come vengono rilevati e corretti i dati sensibili direttamente dai documenti nativi mantenendo al tempo stesso la struttura e la formattazione dei file. Vengono inoltre illustrati i casi d'uso comuni, i formati supportati e come iniziare a usare le informazioni personali basate su documenti in Lingua di Azure AI:

I sottotitoli chiusi sono disponibili per questo video.

Perché usare informazioni personali basate su documenti?

Molte pipeline personalizzate richiedono più passaggi per estrarre testo, eseguire il rilevamento e ricostruire l'output del documento. Le informazioni personali basate su documenti semplificano questo flusso con un unico modello API asincrono e artefatti di output progettati per i sistemi di elaborazione dei documenti.

Le informazioni personali basate su documenti sono particolarmente utili quando è necessario:

  • Redigi PII nei file .pdf, .docx e .txt.
  • Mantenere il layout del documento per i processi aziendali downstream.
  • Generare un output JSON strutturato per il controllo e l'integrazione.

Le informazioni personali basate su documenti usano le stesse categorie di informazioni personali predefinite come informazioni personali di testo, incluse entità come indirizzi, numeri di telefono e numeri di carta di credito.

Cosa restituisce

Quando un processo ha esito positivo, si riceve quanto segue:

  • Documento redatto nel contenitore di archiviazione di destinazione.
  • Un file di risultati JSON con entità, categorie, punteggi di attendibilità ed elaborazione dei metadati rilevati.

Come funziona

Le PII basate su documenti usano un flusso di lavoro asincrono.

  1. Inviare un lavoro con percorsi di archiviazione di origine e di destinazione.
  2. Eseguire interrogazioni periodiche sullo stato del compito usando il percorso dell'operazione.
  3. Recuperare gli artefatti di output dal percorso di archiviazione di destinazione.

Diagramma che mostra il flusso di lavoro asincrono per il rilevamento delle informazioni personali basate su documenti.

Per informazioni dettagliate sull'implementazione ed esempi di richieste, vedere Rilevare e redigere Informazioni di Identificazione Personale in documenti nativi.

Differenze rispetto ad altri tipi di funzionalità di informazioni personali

Tutti i tipi di funzionalità PII usano categorie di entità predefinite, ma ottimizzano per tipi di input diversi:

  • Le informazioni di identificazione personale basate su documenti sono ottimizzate per la redazione di file nativi e la fedeltà dell'output del file.
  • Le PII del testo sono ottimizzate per l'integrazione diretta di input basato su stringhe e app.
  • Le informazioni personali identificabili della conversazione sono ottimizzate per un input conversazionale basato su turni e orientato alla trascrizione.

Casi d'uso comuni

Le informazioni personali basate su documenti sono progettate per i flussi di lavoro aziendali e regolamentati del settore, in cui i team devono rendere anonimi i file prima dell'archiviazione, dell'analisi, della condivisione esterna o dell'elaborazione downstream dell'IA.

Gli esempi tipici includono:

  • Atti giudiziari e documentazione legale.
  • Moduli governativi e record interni.
  • Documenti finanziari.
  • Flussi di lavoro interni della documentazione aziendale.

Formati e limiti supportati

Le PII basate su documenti accettano direttamente formati di file nativi, senza richiedere la pre-elaborazione del testo. Nella tabella seguente sono elencati i formati supportati:

Tipo di file Estensione del file Descrizione
Text .txt Documento di testo non formattato.
Adobe PDF .pdf Documento formattato con file di documento portatile.
Microsoft Word .docx File di documento Microsoft Word.

Si applicano i vincoli di input seguenti:

Attribute Limit
Totale documenti per richiesta <= 20
Dimensioni totali del contenuto per richiesta <= 10 MB

I tipi di contenuto seguenti non sono supportati:

Tipo Limitation
PDF completamente scansionati Non supportato.
Immagini con testo incorporato Le immagini digitali con testo incorporato non sono supportate.
Tabelle nei documenti analizzati Non supportato.

Per informazioni dettagliate sulla copertura linguistica e sui limiti dei servizi, vedere supporto linguistico e quote e limiti della lingua correnti.

Pricing

La redazione delle PII basata su documenti utilizza i prezzi di Lingua di Azure AI. Per i dettagli sui prezzi attuali, vedere i prezzi di Lingua di Azure AI.

Passaggi successivi

Usare i riferimenti seguenti per continuare l'implementazione: