Condividi tramite


Che cos'è l'analisi delle immagini?

Il servizio Analisi delle immagini di Visione di Azure AI può estrarre un'ampia gamma di caratteristiche visive da un'immagine. Il servizio, ad esempio, consente di determinare se il contenuto dell'immagine è per adulti, se contiene specifici marchi o oggetti o di individuare visi umani.

La versione più recente di Analisi delle immagini, 4.0, ora disponibile in anteprima pubblica, include nuove funzionalità come il riconoscimento ottico dei caratteri (OCR) sincrono e il rilevamento persone. È consigliabile usare questa versione in futuro.

È possibile usare l'analisi delle immagini tramite un SDK della libreria client o chiamando direttamente l'API REST. Per iniziare, seguire una le istruzioni della guida di avvio rapido.

In alternativa, è possibile provare le funzionalità di Analisi immagini in modo rapido e semplice nel browser usando Vision Studio.

Nella presente documentazione sono inclusi i tipi di articoli seguenti:

  • Le istruzioni di avvio rapido sono indicazioni basate su passaggi, che consentono di effettuare chiamate al servizio e ottenere risultati in breve tempo.
  • Le guide pratiche forniscono istruzioni per l'uso del servizio in modi più specifici o personalizzati.
  • Gli articoli concettuali, che forniscono spiegazioni approfondite delle caratteristiche e delle funzionalità del servizio.

Per un approccio più strutturato, seguire un modulo Training per l'analisi delle immagini.

Versioni di Analisi immagini

Importante

Selezionare la versione dell'API Analisi immagini più adatta alle proprie esigenze.

Versione Funzionalità disponibili Recommendation
versione 4.0 Leggere testo, Didascalie, didascalie dense, Tag, Rilevamento oggetti, Classificazione immagini personalizzate/rilevamento oggetti, Persone, Ritaglio intelligente Modelli migliori; usare la versione 4.0 se supporta il caso d'uso.
Versione 3.2 Tag, oggetti, descrizioni, marchi, visi, tipo di immagine, combinazione di colori, punti di riferimento, celebrità, contenuto per adulti, ritaglio intelligente Gamma più ampia di funzionalità; usare la versione 3.2 se il caso d'uso non è ancora supportato nella versione 4.0

È consigliabile usare l'API Image Analysis 4.0 se supporta il caso d'uso. Usare la versione 3.2 se il caso d'uso non è ancora supportato dalla versione 4.0.

È necessario usare la versione 3.2 anche se si vogliono generare sottotitoli per le immagini e se la risorsa di Visione si trova all'esterno delle aree di Azure supportate. La funzionalità di generazione di sottotitoli delle immagini in Analisi delle immagini 4.0 è supportata solo in determinate aree di Azure. La generazione di sottotitoli delle immagini nella versione 3.2 è disponibile in tutte le aree di Visione di Azure AI. Vedere Disponibilità a livello di area.

Analyze Image (Analisi dell'immagine)

È possibile analizzare le immagini per ricevere informazioni dettagliate sulle caratteristiche e gli aspetti visivi. Tutte le funzionalità di questa tabella sono fornite dall'API Analizza immagine. Per iniziare, seguire una guida di avvio rapido.

Nome Descrizione Pagina Concetto
Personalizzazione del modello (v4.0 solo anteprima) (deprecato) È possibile creare ed eseguire il training di modelli personalizzati per eseguire la classificazione delle immagini o il rilevamento di oggetti. Usare immagini personalizzate, etichettarle con tag personalizzati e l'analisi delle immagini esegue il training di un modello personalizzato per il caso d'uso. Personalizzazione del modello
Leggere testo da immagini (solo v4.0) La versione 4.0 di anteprima di Analisi immagini offre la possibilità di estrarre testo leggibile dalle immagini. Rispetto all'API di lettura asincrona visione artificiale 3.2, la nuova versione offre il motore OCR di lettura familiare in un'API sincrona ottimizzata per le prestazioni unificata che semplifica l'OCR insieme ad altre informazioni dettagliate in una singola chiamata API. OCR per le immagini
Rilevare le persone nelle immagini (solo v4.0) La versione 4.0 di Analisi immagini offre la possibilità di rilevare le persone visualizzate nelle immagini. Vengono restituite le coordinate del rettangolo di selezione di ogni persona rilevata, insieme a un punteggio di attendibilità. Rilevamento persone
Generare didascalie di immagini È possibile generare una didascalia di un'immagine in un lingua leggibile dall'utente, con frasi complete. Gli algoritmi di Visione artificiale generano didascalie in base agli oggetti identificati nell'immagine.

Il modello di didascalia delle immagini versione 4.0 è un'implementazione più avanzata e funziona con una gamma più ampia di immagini di input. È disponibile solo in aree geografiche specifiche. Vedere Disponibilità a livello di area.

La versione 4.0 consente anche di usare la didascalia densa, che genera didascalie dettagliate per i singoli oggetti presenti nell'immagine. L'API restituisce le coordinate del rettangolo delimitatore (in pixel) di ogni oggetto trovato nell'immagine, più una didascalia. È possibile usare questa funzionalità per generare descrizioni di parti separate di un'immagine.

Foto di mucche con una semplice descrizione a destra.
Generare didascalie di immagini (v3.2)
(v4.0)
Rilevare gli oggetti Il rilevamento di oggetti è simile all'assegnazione di tag, ma l'API restituisce le coordinate del rettangolo di selezione per ogni tag applicato. Se, ad esempio, un'immagine contiene un cane, gatto e una persona, l'operazione di rilevamento elenca tali oggetti insieme alle relative coordinate nell'immagine. È possibile usare questa funzionalità per elaborare ulteriormente le relazioni tra gli oggetti in un'immagine. Questa funzionalità consente anche di sapere quando sono presenti più istanze dello stesso tag in un'immagine.

Foto di un ufficio con un rettangolo disegnato intorno a un portatile.
Rilevare gli oggetti (v3.2)
(v4.0)
Assegnare tag agli elementi visivi Identificare e assegnare tag agli elementi visivi di un'immagine in base a un set di migliaia di oggetti riconoscibili, esseri viventi, panorami e azioni. Quando i tag sono ambigui o non di conoscenza comune, la risposta dell'API fornisce suggerimenti per chiarire il contesto del tag. L'assegnazione di tag non è limitata al soggetto principale, ad esempio una persona in primo piano, ma include anche scenari (interni o esterni), arredamenti, strumenti, piante, animali, accessori, gadget e così via.

Foto di uno skateboarder con tag elencati a destra.
Assegnare tag agli elementi visivi (v3.2)
(v4.0)
Ottenere l'area di interesse/di ritaglio smart Analizzare il contenuto di un'immagine per restituire le coordinate dell'area di interesse che corrisponde a una proporzione specificata. Visione artificiale restituisce le coordinate del rettangolo delimitatore dell'area, in modo che l'applicazione chiamante possa modificare l'immagine originale in base alle esigenze.

Il modello di ritaglio smart versione 4.0 è un'implementazione più avanzata e funziona con una gamma più ampia di immagini di input. È disponibile solo in aree geografiche specifiche. Vedere Disponibilità a livello di area.
Generare un'anteprima (v3.2)
(anteprima v4.0)
Rilevare i marchi (solo v3.2) È possibile identificare i marchi commerciali in immagini o video da un database di migliaia di logo globali. È ad esempio possibile usare questa funzionalità per individuare i marchi più popolari sui social media o quelli più prevalenti nel posizionamento dei prodotti multimediali. Rilevare i marchi
Classificare un'immagine (solo v3.2) È possibile identificare e classificare un'intera immagine usando una tassonomia di categorie con gerarchie ereditarie di tipo padre/figlio. Le categorie possono essere usate singolarmente o con i nuovi modelli di assegnazione di tag.

L'inglese è attualmente l'unica lingua supportata per l'assegnazione di tag e la classificazione di immagini.
Classificare un'immagine
Rilevare i visi (solo v3.2) È possibile rilevare visi in un'immagine e fornire informazioni su ogni viso rilevato. Visione di Azure AI restituisce le coordinate, un rettangolo, il sesso e l'età per ogni viso rilevato.

È anche possibile usare l'API Viso dedicata per questi scopi. Fornisce un'analisi più dettagliata, ad esempio l'identificazione facciale e il rilevamento della posizione.
Rilevare visi
Rilevare i tipi di immagine (solo v3.2) È possibile rilevare le caratteristiche di un'immagine, ad esempio per determinare se un'immagine è un disegno a linee o per ottenere la probabilità che un'immagine sia ClipArt. Rilevare i tipi di immagine
Rilevare contenuti specifici di dominio (solo v3.2) È possibile usare modelli di dominio per rilevare e identificare contenuti specifici del dominio in un'immagine, ad esempio celebrità e luoghi di interesse. Se ad esempio un'immagine contiene persone, Visione di Azure AI può usare un modello di dominio per le celebrità per determinare se le persone rilevate nell'immagine corrispondono a celebrità note. Rilevare contenuti specifici del dominio
Rilevare la combinazione di colori (solo v3.2) È possibile analizzare l'utilizzo dei colori in un'immagine. Visione di Azure AI può determinare se un'immagine è in bianco e nero o a colori e nel caso delle immagini a colore può identificare il colore dominante e i colori in primo piano. Rilevare la combinazione di colori
Moderare il contenuto nelle immagini (solo v3.2) È possibile usare Visione di Azure AI per rilevare i contenuti per adulti in un'immagine e restituire punteggi di confidenza per le diverse classificazioni. La soglia per contrassegnare i contenuti può essere impostata tramite un indicatore di scorrimento in base alle preferenze dell'utente. Rilevare il contenuto per adulti

Riconoscimento del prodotto (v4.0 solo anteprima) (deprecato)

Importante

Questa funzionalità è ora deprecata. Il 10 gennaio 2025, l'API di anteprima Analisi immagini di Intelligenza artificiale di Azure 4.0, Rilevamento oggetti personalizzati e Riconoscimento del prodotto verrà ritirata. Dopo questa data, le chiamate API a questi servizi avranno esito negativo.

Per mantenere il funzionamento dei modelli, passare a Visione personalizzata di Azure AI, ora disponibile a livello generale. Visione personalizzata offre funzionalità simili a quelle in fase di ritiro.

Le API di riconoscimento dei prodotti consentono di analizzare le foto degli scaffali di un negozio al dettaglio. È possibile rilevare la presenza o l’assenza di prodotti e ottenere le coordinate del rettangolo delimitatore. È da usare in combinazione con la personalizzazione del modello per eseguire il training di un modello per identificare prodotti specifici. È anche possibile confrontare i risultati del riconoscimento dei prodotti con il documento del planogramma del negozio.

Riconoscimento del prodotto

Incorporamenti multimodali (solo v4.0)

Le API di incorporamento multimodale consentono la vettorizzazione di immagini e query di testo. Convertono le immagini in coordinate in uno spazio vettoriale multidimensionale. Le query di testo in ingresso possono quindi essere convertite anche in vettori e le immagini possono essere abbinate al testo in base alla prossimità semantica. In questo modo l'utente può cercare un set di immagini usando testo senza la necessità di usare tag di immagine o altri metadati. La prossimità semantica restituisce spesso risultati di ricerca migliori.

L'API 2024-02-01 include un modello multilingue che supporta la ricerca di testo in 102 lingue. Il modello originale solo in lingua inglese è ancora disponibile, ma non può essere combinato con il nuovo modello nello stesso indice di ricerca. Se testo e immagini sono stati vettorializzati con il modello solo in lingua inglese, tali vettori non saranno compatibili con i vettori per testo e immagini multilingue.

Queste API sono disponibili solo in determinate aree geografiche. Vedere Disponibilità a livello di area.

Incorporamenti multimodali

Rimozione in background (solo anteprima v4.0)

Importante

Questa funzionalità è ora deprecata. Il 10 gennaio 2025, l'API segmento di Analisi immagini di Intelligenza artificiale di Azure 4.0 e il servizio di rimozione in background verranno ritirati. Tutte le richieste a questo servizio avranno esito negativo dopo questa data.

Per mantenere un funzionamento senza problemi dei modelli, installare il modello open source Firenze 2 e utilizzare la relativa funzionalità Region to segmentation, che consente un'operazione di rimozione in background simile.

Analisi immagini 4.0 (anteprima) offre la possibilità di rimuovere lo sfondo di un'immagine. Questa funzionalità può restituire un'immagine dell'oggetto in primo piano rilevato con uno sfondo trasparente o un'immagine alfa opaco in scala di grigi che mostra l'opacità dell'oggetto in primo piano rilevato.

Rimozione sfondo

Immagine originale Con lo sfondo rimosso Opacità alfa
Foto di un gruppo di persone che usano un tablet. Foto di un gruppo di persone che usano un tablet. Lo sfondo è trasparente. Mascherino alfa di un gruppo di persone.

Limiti del servizio

Requisiti di input

L'analisi delle immagini funziona solo su immagini che soddisfano i requisiti seguenti:

  • L'immagine deve essere presentata in formato JPEG, PNG, GIF, BMP, WEBP, ICO, TIFF o MPO
  • Le dimensioni del file dell'immagine devono essere minori di 20 megabyte (MB)
  • Le dimensioni dell'immagine devono essere superiori a 50 x 50 pixel e inferiori a 16.000 x 16.000 pixel

Suggerimento

I requisiti di input per gli incorporamenti multimodali sono diversi e sono elencati in Incorporamenti multimodali

Supporto di versioni in lingue diverse

Diverse funzionalità di Analisi delle immagini sono disponibili in lingue diverse. Vedere la pagina Lingue supportate.

Aree di disponibilità

Per usare le API di Analisi delle immagini, è necessario creare una risorsa di Visione di Azure AI in un'area supportata. Le funzionalità di Analisi delle immagini sono disponibili nelle aree seguenti:

Paese Analyze Image (Analisi dell'immagine)
(meno i sottotitoli 4.0)
Analyze Image (Analisi dell'immagine)
(incluse i sottotitoli 4.0)
Riconoscimento del prodotto Incorporamenti multimodali Rimozione sfondo
Stati Uniti orientali
Stati Uniti occidentali
West US 2
Francia centrale
Europa settentrionale
Europa occidentale
Svezia centrale
Svizzera settentrionale
Australia orientale
Asia sud-orientale
Asia orientale
Corea centrale
Giappone orientale

Privacy e sicurezza dei dati

Come con tutti i Servizi di Azure AI, gli sviluppatori che usano il servizio Visione di Azure AI devono conoscere i criteri di Microsoft per i dati dei clienti. Per altre informazioni, vedere la pagina sui Servizi di Azure AI nel Centro protezione di Microsoft.

Passaggi successivi

Seguire questa guida di avvio rapido nel linguaggio di sviluppo preferito per iniziare a usare Analisi delle immagini e versione dell'API: