OCR (riconoscimento ottico dei caratteri)
Il riconoscimento ottico dei caratteri o OCR (Optical Character Recognition) è detto anche riconoscimento o estrazione del testo. Le tecniche OCR basate su Machine Learning consentono di estrarre testo stampato o scritto a mano da immagini come poster, cartelli stradali ed etichette di prodotto, nonché da documenti come articoli, report, moduli e fatture. Il testo viene in genere estratto sotto forma di parole, righe di testo e paragrafi o blocchi di testo, consentendo l'accesso alla versione digitale del testo analizzato. Ciò elimina o riduce in modo significativo la necessità di immissione manuale dei dati.
Motore OCR
Il motore OCR Lettura di Microsoft è costituito da più modelli avanzati basati su Machine Learning che supportano linguaggi globali. Può estrarre testo stampato e scritto a mano, inclusi linguaggi misti e stili di scrittura. L'API Lettura è disponibile come servizio cloud e contenitore in locale per una maggiore flessibilità di distribuzione. È disponibile anche come API sincrona per scenari singoli, non documentabili, di sola immagine con miglioramenti delle prestazioni che semplificano l'implementazione di esperienze utente con supporto OCR.
Avviso
Non è consigliabile utilizzare le operazioni della versione legacy dell'API OCR in v3.2 e dell'API RecognizeText in v2.1 di Visione di Azure AI.
Edizioni OCR (Lettura)
Importante
Selezionare l'edizione Lettura più adatta alle proprie esigenze.
Input | Esempi | Edizione Lettura | Vantaggio |
---|---|---|---|
Immagini: generiche, in ambienti naturali | etichette, cartelli stradali e cartelloni | OCR per le immagini (versione 4.0) | Ottimizzato per immagini generiche non documentate con un'API sincrona a prestazioni avanzate che semplifica l'incorporamento di OCR negli scenari dell’esperienza utente. |
Documenti: digitali e digitalizzato, incluse le immagini | libri, articoli e report | Modello di lettura di informazioni sui documenti | Ottimizzato per documenti contenenti molto testo, digitalizzati e digitali con un'API asincrona per automatizzare l'elaborazione intelligente dei documenti su larga scala. |
Informazioni su Lettura di Visione di Azure AI v3.2 con disponibilità generale
Si sta cercando la versione più recente di Lettura di Visione di Azure AI v3.2 con disponibilità generale? Tutti i miglioramenti futuri di Lettura OCR fanno parte dei due servizi elencati in precedenza. Non sono previsti ulteriori aggiornamenti per Visione di Azure AI v3.2. Per altre informazioni, vedere Chiamare l'API di lettura per Visione di Azure AI 3.2 con disponibilità generale e Avvio rapido: Lettura di Visione di Azure AI v3.2 con disponibilità generale.
In che modo OCR è correlato all'elaborazione intelligente dei documenti?
L'elaborazione intelligente dei documenti usa OCR come tecnologia di base per estrarre strutture, relazioni, valori chiave, entità e altre informazioni dettagliate basate sui documenti con un servizio di intelligenza artificiale avanzato basato su Machine Learning come Informazioni sui documenti. Informazioni sui documenti include una versione ottimizzata per i documenti dell'API Lettura come motore OCR durante la delega ad altri modelli per informazioni dettagliate di livello superiore. Se si estrae testo da documenti digitalizzati e digitali, usare l'API Lettura OCR di Informazioni sui documenti.
Come usare la funzionalità OCR
Provare OCR usando Vision Studio. Seguire quindi uno dei collegamenti all'edizione dell'API Lettura che meglio soddisfa i requisiti.
Lingue supportate da OCR
Entrambe le versioni dell'API Lettura attualmente disponibili in Visione di Azure AI supportano diverse lingue per il testo stampato e scritto a mano. OCR per il testo stampato include il supporto per le lingue seguenti: inglese, francese, tedesco, italiano, portoghese, spagnolo, cinese, giapponese, coreano, russo, arabo, hindi e altre lingue internazionali che usano alfabeti latini, cirillici, arabi e devanagari. OCR per il testo scritto a mano include il supporto per le lingue seguenti: inglese, cinese semplificato, francese, tedesco, italiano, giapponese, coreano, portoghese e spagnolo.
Vedere l'elenco completo delle lingue supportate dal riconoscimento ottico dei caratteri (OCR).
Funzionalità OCR comuni
Il modello OCR dell'API Lettura è disponibile in Visione di Azure AI e Informazioni sui documenti con funzionalità di base comuni durante l'ottimizzazione dei rispettivi scenari. Nell'elenco seguente vengono riepilogate le funzionalità comuni:
- Estrazione di testo stampato e scritto a mano nelle lingue supportate
- Pagine, righe di testo e parole con punteggi di posizione e attendibilità
- Supporto per lingue miste, modalità mista (stampa e scrittura a mano)
- Disponibile come contenitore Docker senza distribuzione per la distribuzione locale
Usare le API cloud OCR o distribuire in locale
Le API cloud sono l'opzione preferita per la maggior parte dei clienti grazie alla facilità di integrazione e alla produttività rapida predefinita. Azure e il servizio Visione di Azure AI gestiscono le esigenze di scalabilità, prestazioni, sicurezza dei dati e conformità, mentre ci si concentra sulle esigenze dei clienti.
Per la distribuzione locale, il contenitore Docker dell'API Lettura consente di distribuire le funzionalità OCR disponibili a livello generale di Visione di Azure AI v3.2 nel proprio ambiente locale. I contenitori sono ottimi per requisiti specifici di sicurezza e governance dei dati.
Requisiti di input
L'API Lettura accetta immagini e documenti come input. Le immagini e i documenti devono soddisfare i requisiti seguenti:
- I formati di file supportati sono JPEG, PNG, BMP, PDF e TIFF.
- Per i file PDF e TIFF, vengono elaborate fino a 2.000 pagine (solo le prime due pagine per il livello gratuito).
- Le dimensioni del file delle immagini devono essere inferiori a 500 MB (4 MB per il livello gratuito) con dimensioni di almeno 50 x 50 pixel e al massimo 10.000 x 10.000 pixel. Per i file PDF non è previsto un limite di dimensioni.
- L'altezza minima del testo da estrarre è di 12 pixel per un'immagine da 1024 x 768, che corrisponde a circa un testo del tipo di carattere a 8 punti a 150 DPI.
Nota
Non è necessario ritagliare un'immagine per le righe di testo. Inviare l'intera immagine all'API Lettura e riconosce tutti i testi.
Privacy e sicurezza dei dati OCR
Come con tutti i Servizi di Azure AI, gli sviluppatori che usano il servizio Visione di Azure AI devono conoscere i criteri di Microsoft per i dati dei clienti. Per altre informazioni, vedere la pagina sui Servizi di Azure AI nel Centro protezione di Microsoft.
Passaggi successivi
- OCR per immagini generiche (non documento): provare l'avvio rapido dell'API REST di analisi delle immagini di Visione di Azure AI 4.0 (anteprima).
- OCR per documenti PDF, Office e HTML e immagini di documenti: iniziare con l'API Lettura di Informazioni sui documenti.
- Se si cerca la versione disponibile a livello generale precedente, Vedere gli avvii rapidi dell'SDK o dell'API REST disponibile a livello generale per Visione di Azure AI 3.2.