Riconoscimento ottico dei caratteri (OCR)

Articolo
03/23/2024

Importante

A causa dell'annuncio di ritiro Servizi multimediali di Azure, Azure AI Video Indexer annuncia le modifiche alle funzionalità di Azure AI Video Indexer. Vedere Modifiche correlate al ritiro di Servizi multimediali di Azure (AMS) per comprendere cosa significa per l'account Video Indexer di Azure per intelligenza artificiale. Vedere la guida alla preparazione per il ritiro di AMS: aggiornamento VI e migrazione.

Il riconoscimento ottico dei caratteri (OCR) è una funzionalità di intelligenza artificiale di Azure AI Video Indexer che estrae testo da immagini, segnali stradali e prodotti nei file multimediali per creare informazioni dettagliate.

OCR estrae attualmente informazioni dettagliate da testo stampato e scritto a mano in oltre 50 lingue, tra cui da un'immagine con testo in più lingue. Per altre informazioni, vedere Linguaggi supportati da OCR.

Prerequisiti

Panoramica delle note sulla trasparenza

Principi generali

Questo articolo illustra il riconoscimento ottico dei caratteri (OCR) e le considerazioni chiave per l'uso responsabile di questa tecnologia. Quando si decide come usare e implementare una funzionalità basata su intelligenza artificiale, è necessario prendere in considerazione molti aspetti:

Questa funzionalità funziona correttamente nello scenario? Prima di distribuire OCR nello scenario, testare le prestazioni usando i dati reali e assicurarsi che possa offrire l'accuratezza necessaria.
È possibile identificare e rispondere agli errori? I prodotti e le funzionalità basati sull'intelligenza artificiale non saranno accurati al 100%, quindi valutare come identificare e rispondere a eventuali errori che possono verificarsi.

Visualizzare le informazioni dettagliate

Quando si lavora sul sito Web, le informazioni dettagliate vengono visualizzate nella scheda Sequenza temporale . Possono anche essere generati in un elenco categorizzato in un file JSON che include l'ID, il testo trascritto, la durata e il punteggio di attendibilità.

Per visualizzare le istanze nel sito Web, eseguire le operazioni seguenti:

Passare a Visualizza e selezionare OCR.
Selezionare Sequenza temporale per visualizzare il testo estratto.

Le informazioni dettagliate possono anche essere generate in un elenco categorizzato in un file JSON che include l'ID, la lingua, il testo insieme al punteggio di attendibilità di ogni istanza.

Per visualizzare le informazioni dettagliate in un file JSON, eseguire le operazioni seguenti:

Selezionare Download -> Insight (JSON).

Copiare l'elemento ocr , in insightse incollarlo nel visualizzatore JSON online.

"ocr": [
    {
      "id": 1,
      "text": "2017 Ruler",
      "confidence": 0.4365,
      "left": 901,
      "top": 3,
      "width": 80,
      "height": 23,
      "angle": 0,
      "language": "en-US",
      "instances": [
        {
          "adjustedStart": "0:00:45.5",
          "adjustedEnd": "0:00:46",
          "start": "0:00:45.5",
          "end": "0:00:46"
        },
        {
          "adjustedStart": "0:00:55",
          "adjustedEnd": "0:00:55.5",
          "start": "0:00:55",
          "end": "0:00:55.5"
        }
      ]
    },
    {
      "id": 2,
      "text": "2017 Ruler postppu - PowerPoint",
      "confidence": 0.4712,
      "left": 899,
      "top": 4,
      "width": 262,
      "height": 48,
      "angle": 0,
      "language": "en-US",
      "instances": [
        {
          "adjustedStart": "0:00:44.5",
          "adjustedEnd": "0:00:45",
          "start": "0:00:44.5",
          "end": "0:00:45"
        }
      ]
    },

Per scaricare il file JSON tramite l'API, usare il portale per sviluppatori di Video Indexer per intelligenza artificiale di Azure.

Componenti OCR

Durante la procedura OCR, le immagini di testo in un file multimediale vengono elaborate, come indicato di seguito:

Componente	Definizione
File di origine	L'utente carica il file di origine per l'indicizzazione.
Modello di lettura	Le immagini vengono rilevate nel file multimediale e nel testo vengono quindi estratte e analizzate dai servizi di intelligenza artificiale di Azure.
Ottenere il modello di risultati di lettura	L'output del testo estratto viene visualizzato in un file JSON.
Valore di attendibilità	Il livello di attendibilità stimato di ogni parola viene calcolato come intervallo compreso tra 0 e 1. Il punteggio di attendibilità rappresenta la certezza nell'accuratezza del risultato. Ad esempio, una certezza dell'82% verrà rappresentata come punteggio di 0,82.

Per altre informazioni, vedere Tecnologia OCR.

Caso d'uso di esempio

Ricerca approfondita dei filmati multimediali per immagini con segnali, nomi di strada o targhe dell'auto, ad esempio nelle forze dell'ordine.
Estrazione di testo dalle immagini nei file multimediali e quindi traduzione in più lingue nelle etichette per l'accessibilità, ad esempio in contenuti multimediali o intrattenimento.
Rilevamento dei nomi dei marchi nelle immagini e assegnazione di tag a scopo di traduzione, ad esempio per pubblicità e personalizzazione.
Estrazione di testo in immagini contrassegnate e classificate automaticamente per l'accessibilità e l'utilizzo futuro, ad esempio per generare contenuto in un'agenzia di notizie.
Estrazione di testo negli avvisi nelle istruzioni online e quindi traduzione del testo in conformità agli standard locali, ad esempio istruzioni di e-learning per l'uso delle apparecchiature.

Considerazioni e limitazioni quando si sceglie un caso d'uso

Video Indexer ha un limite di OCR di 50.000 parole per ogni video indicizzato. Una volta raggiunto il limite, non vengono generati risultati OCR aggiuntivi.
Considerare attentamente l'accuratezza dei risultati, per promuovere rilevamenti più accurati, controllare la qualità dell'immagine, le immagini di bassa qualità potrebbero influire sulle informazioni rilevate.
Valutare attentamente quando si usa per le forze dell'ordine che OCR può potenzialmente leggere o non rilevare parti del testo. Per garantire decisioni equi e di alta qualità, combinare l'automazione basata su OCR con la supervisione umana.
Quando si estrae testo scritto a mano, evitare di usare i risultati OCR delle firme difficili da leggere sia per gli esseri umani che per i computer. Un modo migliore per usare OCR consiste nell'usarlo per rilevare la presenza di una firma per un'ulteriore analisi.
Non usare OCR per decisioni che potrebbero avere gravi effetti negativi. I modelli di Machine Learning che estraggono testo possono comportare output di testo non rilevati o non corretti. Le decisioni basate sull'output errato potrebbero avere gravi effetti negativi. Inoltre, è consigliabile includere la revisione umana delle decisioni che hanno il potenziale di gravi impatti sulle persone.

Quando viene usato in modo responsabile e attento, Azure AI Video Indexer è uno strumento prezioso per molti settori. Per rispettare la privacy e la sicurezza di altri utenti e per rispettare le normative locali e globali, è consigliabile:

Rispetta sempre il diritto di un individuo alla privacy e inserisce solo video per scopi legittimi e giustificabili.  
Non divulgare intenzionalmente contenuti inappropriati su bambini o familiari di celebrità o altri contenuti che possono essere dannosi o rappresentare una minaccia per la libertà personale di un individuo.  
Impegnarsi a rispettare e promuovere i diritti umani nella progettazione e nella distribuzione dei media analizzati.  
Quando si usano materiali di terze parti, tenere presente eventuali copyright o autorizzazioni esistenti necessari prima di distribuirli. 
Cercare sempre consigli legali quando si usa contenuto da origini sconosciute. 
Ottenere sempre consigli legali e professionali appropriati per garantire che i video caricati siano protetti e abbiano controlli adeguati per preservare l'integrità del contenuto e per impedire l'accesso non autorizzato.    
Fornire un canale di feedback che consente a utenti e utenti di segnalare problemi con il servizio.  
Tenere presente eventuali leggi o normative applicabili presenti nell'area relativa all'elaborazione, all'analisi e alla condivisione di contenuti multimediali contenenti persone. 
Mantenere un essere umano nel ciclo. Non usare alcuna soluzione come sostituzione per la supervisione umana e il processo decisionale.  
Esaminare e esaminare completamente il potenziale di qualsiasi modello di intelligenza artificiale in uso per comprendere le funzionalità e le limitazioni.

Share via