Attività iniziali con Visione di Azure AI

Completato

La possibilità per i sistemi informatici di elaborare testo scritto e stampato è un'area dell'intelligenza artificiale in cui la visione artificiale si interseca con l'elaborazione del linguaggio naturale. Le funzionalità di visione sono necessarie per "leggere" il testo e quindi le funzionalità di elaborazione del linguaggio naturale per interpretarlo.

Il riconoscimento ottico dei caratteri è la base dell'elaborazione del testo nelle immagini e usa modelli di Machine Learning sottoposti a training per riconoscere singole forme come lettere, numeri, punteggiatura o altri elementi di testo. Gran parte delle fasi iniziali dell'implementazione di questo tipo di funzionalità sono state eseguite dai servizi postali per supportare l'ordinamento automatico della posta in base ai codici postali. Da allora, lo stato dell'arte per la lettura del testo è stato spostato e abbiamo modelli che rilevano testo stampato o scritto a mano in un'immagine e leggono riga per riga e parola per parola.

A screenshot of an envelope showing a handwritten address with typed text next to it.

Motore di riconoscimento ottico dei caratteri di Visione di Azure AI

Il servizio Visione di Azure AI ha la possibilità di estrarre testo leggibile dal computer dalle immagini. L'API Lettura di Visione di Azure AI è il motore di riconoscimento ottico dei caratteri che supporta l'estrazione di testo da immagini e da file PDF e TIFF. Il riconoscimento ottico dei caratteri per le immagini è ottimizzato per immagini generali e non documentate che semplificano l'incorporamento di OCR negli scenari di esperienza utente.

L'API Lettura, nota come motore OCR di lettura, usa i modelli di riconoscimento più recenti ed è ottimizzata per le immagini con una quantità significativa di testo o con rumore visivo notevole. È in grado di determinare automaticamente il modello di riconoscimento da usare, tenendo conto del numero di righe di testo, di immagini che includono testo e della scrittura manuale.

Il motore di riconoscimento ottico dei caratteri acquisisce un file di immagine e identifica i rettangoli di delimitazione o le coordinate, in cui gli elementi si trovano all'interno di un'immagine. Nell'OCR, il modello identifica i rettangoli di delimitazione intorno a qualsiasi elemento che sembra essere testo nell'immagine.

La chiamata all'API Lettura restituisce i risultati disposti nella gerarchia seguente:

  • Pagine: una per ogni pagina di testo, incluse le informazioni sulle dimensioni e sull'orientamento della pagina.
  • Righe: le righe di testo in una pagina.
  • Parole: parole in una riga di testo, incluse le coordinate del rettangolo delimitatore e il testo stesso.

Ogni riga e parola include le coordinate del rettangolo di delimitazione che indicano la relativa posizione nella pagina.

A screenshot showing bounding boxes around the page, line, and word of a letter.