Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
OCR estrae testo da immagini, ad esempio immagini, segni stradali e prodotti nei file multimediali per creare informazioni dettagliate.
OCR estrae informazioni dettagliate da testo stampato e scritto a mano in oltre 50 lingue, tra cui da un'immagine con testo in più lingue. Per altre informazioni, vedere Linguaggi supportati da OCR.
Per ulteriori informazioni sulla tecnologia OCR, vedere tecnologia OCR.
Casi d'uso OCR
- Ricerca approfondita dei filmati multimediali per immagini con segnali, nomi delle strade o targhe dell'auto, ad esempio nelle forze dell'ordine.
- Estrazione del testo dalle immagini nei file multimediali e successiva traduzione in più lingue nelle etichette per l'accessibilità, ad esempio nei media o nel settore dell'intrattenimento.
- Rilevare nomi di marche nelle immagini ed etichettarli per scopi di traduzione, ad esempio nella pubblicità e nel branding.
- Estrarre il testo dalle immagini, che viene poi automaticamente taggato e categorizzato per l'accessibilità e l'uso futuro, ad esempio per generare contenuti in un'agenzia di stampa.
- Estrarre il testo dagli avvisi nelle istruzioni online e poi tradurre il testo per conformarsi agli standard locali, ad esempio, istruzioni di e-learning per l'uso dell'attrezzatura.
Visualizza il JSON dell'informazione con il portale web
Dopo aver caricato e indicizzato un video, scaricare informazioni dettagliate in formato JSON dal portale Web.
- Seleziona la scheda Library.
- Seleziona il supporto che desideri.
- Selezionare Download e quindi Insights (JSON). Il file JSON si apre in una nuova scheda del browser.
- Trovare la coppia di chiavi descritta nella risposta di esempio.
Usa l'API
- Usare una richiesta di Get Video Index. Passare
&includeSummarizedInsights=false
. - Trovare le coppie chiave descritte nella risposta di esempio.
Risposta di esempio
"ocr": [
{
"id": 1,
"text": "2017 Ruler",
"confidence": 0.4365,
"left": 901,
"top": 3,
"width": 80,
"height": 23,
"angle": 0,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:45.5",
"adjustedEnd": "0:00:46",
"start": "0:00:45.5",
"end": "0:00:46"
},
{
"adjustedStart": "0:00:55",
"adjustedEnd": "0:00:55.5",
"start": "0:00:55",
"end": "0:00:55.5"
}
]
},
{
"id": 2,
"text": "2017 Ruler postppu - PowerPoint",
"confidence": 0.4712,
"left": 899,
"top": 4,
"width": 262,
"height": 48,
"angle": 0,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:44.5",
"adjustedEnd": "0:00:45",
"start": "0:00:44.5",
"end": "0:00:45"
}
]
}
Importante
Leggi la panoramica della nota di trasparenza per tutte le funzionalità VI. Ogni approfondimento ha anche una propria nota sulla trasparenza.
Le note OCR
- Video Indexer ha un limite di 50.000 parole OCR per video indicizzato. Una volta raggiunto il limite, non vengono generati risultati OCR aggiuntivi.
- Considerare attentamente l'accuratezza dei risultati, per promuovere rilevamenti più accurati, controllare la qualità dell'immagine, le immagini di bassa qualità potrebbero influire sulle informazioni dettagliate rilevate.
- Valutare attentamente quando lo si utilizza nel contesto delle forze dell'ordine. OCR potrebbe non rilevare o leggere male parti del testo. Per garantire determinazioni di VI eque e di alta qualità, combinare l'automazione basata su OCR con la supervisione umana.
- Quando si estrae testo scritto a mano, evitare di usare i risultati OCR delle firme difficili da leggere sia per gli esseri umani che per i computer. Un modo migliore per utilizzare l'OCR è impiegarlo per rilevare la presenza di una firma per ulteriori analisi.
- Non utilizzare l'OCR per decisioni che potrebbero avere gravi impatti negativi su individui o gruppi. I modelli di machine learning che estraggono testo possono produrre risultati di testo non rilevati o errati. Le decisioni basate su risultati errati potrebbero avere gravi impatti negativi che devono essere evitati. Dovresti sempre includere una revisione umana delle decisioni che potrebbero avere un impatto serio sugli individui.
Componenti OCR
Durante la procedura di OCR, le immagini di testo in un file multimediale vengono elaborate, come segue:
Componente | Definizione |
---|---|
File sorgente | L'utente carica il file sorgente per l'indicizzazione. |
Modello di lettura | Le immagini vengono rilevate nel file multimediale e nel testo, quindi estratte e analizzate dai servizi Azure AI. |
Modello di risultati di lettura | L'output del testo estratto è visualizzato in un file JSON. |
Valore di attendibilità | Il livello di fiducia stimato di ciascuna parola è calcolato come un intervallo da 0 a 1. Il punteggio di fiducia rappresenta la certezza nell'accuratezza del risultato. Ad esempio, una certezza dell'82% è rappresentata come punteggio di 0,82. |