Che cos'è l'analisi delle immagini?
Il servizio Analisi delle immagini di Visione di Azure AI può estrarre un'ampia gamma di caratteristiche visive da un'immagine. Il servizio, ad esempio, consente di determinare se il contenuto dell'immagine è per adulti, se contiene specifici marchi o oggetti o di individuare visi umani.
La versione più recente di Analisi delle immagini, 4.0, ora disponibile in anteprima pubblica, include nuove funzionalità come il riconoscimento ottico dei caratteri (OCR) sincrono e il rilevamento persone. È consigliabile usare questa versione in futuro.
È possibile usare l'analisi delle immagini tramite un SDK della libreria client o chiamando direttamente l'API REST. Per iniziare, seguire una le istruzioni della guida di avvio rapido.
In alternativa, è possibile provare le funzionalità di Analisi immagini in modo rapido e semplice nel browser usando Vision Studio.
Nella presente documentazione sono inclusi i tipi di articoli seguenti:
- Le istruzioni di avvio rapido sono indicazioni basate su passaggi, che consentono di effettuare chiamate al servizio e ottenere risultati in breve tempo.
- Le guide pratiche forniscono istruzioni per l'uso del servizio in modi più specifici o personalizzati.
- Gli articoli concettuali, che forniscono spiegazioni approfondite delle caratteristiche e delle funzionalità del servizio.
Per un approccio più strutturato, seguire un modulo Training per l'analisi delle immagini.
Versioni di Analisi immagini
Importante
Selezionare la versione dell'API Analisi immagini più adatta alle proprie esigenze.
Versione | Funzionalità disponibili | Recommendation |
---|---|---|
versione 4.0 | Leggere testo, Didascalie, didascalie dense, Tag, Rilevamento oggetti, Classificazione immagini personalizzate/rilevamento oggetti, Persone, Ritaglio intelligente | Modelli migliori; usare la versione 4.0 se supporta il caso d'uso. |
Versione 3.2 | Tag, oggetti, descrizioni, marchi, visi, tipo di immagine, combinazione di colori, punti di riferimento, celebrità, contenuto per adulti, ritaglio intelligente | Gamma più ampia di funzionalità; usare la versione 3.2 se il caso d'uso non è ancora supportato nella versione 4.0 |
È consigliabile usare l'API Image Analysis 4.0 se supporta il caso d'uso. Usare la versione 3.2 se il caso d'uso non è ancora supportato dalla versione 4.0.
È necessario usare la versione 3.2 anche se si vogliono generare sottotitoli per le immagini e se la risorsa di Visione si trova all'esterno delle aree di Azure supportate. La funzionalità di generazione di sottotitoli delle immagini in Analisi delle immagini 4.0 è supportata solo in determinate aree di Azure. La generazione di sottotitoli delle immagini nella versione 3.2 è disponibile in tutte le aree di Visione di Azure AI. Vedere Disponibilità a livello di area.
Analyze Image (Analisi dell'immagine)
È possibile analizzare le immagini per ricevere informazioni dettagliate sulle caratteristiche e gli aspetti visivi. Tutte le funzionalità di questa tabella sono fornite dall'API Analizza immagine. Per iniziare, seguire una guida di avvio rapido.
Nome | Descrizione | Pagina Concetto |
---|---|---|
Personalizzazione del modello (v4.0 solo anteprima) (deprecato) | È possibile creare ed eseguire il training di modelli personalizzati per eseguire la classificazione delle immagini o il rilevamento di oggetti. Usare immagini personalizzate, etichettarle con tag personalizzati e l'analisi delle immagini esegue il training di un modello personalizzato per il caso d'uso. | Personalizzazione del modello |
Leggere testo da immagini (solo v4.0) | La versione 4.0 di anteprima di Analisi immagini offre la possibilità di estrarre testo leggibile dalle immagini. Rispetto all'API di lettura asincrona visione artificiale 3.2, la nuova versione offre il motore OCR di lettura familiare in un'API sincrona ottimizzata per le prestazioni unificata che semplifica l'OCR insieme ad altre informazioni dettagliate in una singola chiamata API. | OCR per le immagini |
Rilevare le persone nelle immagini (solo v4.0) | La versione 4.0 di Analisi immagini offre la possibilità di rilevare le persone visualizzate nelle immagini. Vengono restituite le coordinate del rettangolo di selezione di ogni persona rilevata, insieme a un punteggio di attendibilità. | Rilevamento persone |
Generare didascalie di immagini | È possibile generare una didascalia di un'immagine in un lingua leggibile dall'utente, con frasi complete. Gli algoritmi di Visione artificiale generano didascalie in base agli oggetti identificati nell'immagine. Il modello di didascalia delle immagini versione 4.0 è un'implementazione più avanzata e funziona con una gamma più ampia di immagini di input. È disponibile solo in aree geografiche specifiche. Vedere Disponibilità a livello di area. La versione 4.0 consente anche di usare la didascalia densa, che genera didascalie dettagliate per i singoli oggetti presenti nell'immagine. L'API restituisce le coordinate del rettangolo delimitatore (in pixel) di ogni oggetto trovato nell'immagine, più una didascalia. È possibile usare questa funzionalità per generare descrizioni di parti separate di un'immagine. |
Generare didascalie di immagini (v3.2) (v4.0) |
Rilevare gli oggetti | Il rilevamento di oggetti è simile all'assegnazione di tag, ma l'API restituisce le coordinate del rettangolo di selezione per ogni tag applicato. Se, ad esempio, un'immagine contiene un cane, gatto e una persona, l'operazione di rilevamento elenca tali oggetti insieme alle relative coordinate nell'immagine. È possibile usare questa funzionalità per elaborare ulteriormente le relazioni tra gli oggetti in un'immagine. Questa funzionalità consente anche di sapere quando sono presenti più istanze dello stesso tag in un'immagine. |
Rilevare gli oggetti (v3.2) (v4.0) |
Assegnare tag agli elementi visivi | Identificare e assegnare tag agli elementi visivi di un'immagine in base a un set di migliaia di oggetti riconoscibili, esseri viventi, panorami e azioni. Quando i tag sono ambigui o non di conoscenza comune, la risposta dell'API fornisce suggerimenti per chiarire il contesto del tag. L'assegnazione di tag non è limitata al soggetto principale, ad esempio una persona in primo piano, ma include anche scenari (interni o esterni), arredamenti, strumenti, piante, animali, accessori, gadget e così via. |
Assegnare tag agli elementi visivi (v3.2) (v4.0) |
Ottenere l'area di interesse/di ritaglio smart | Analizzare il contenuto di un'immagine per restituire le coordinate dell'area di interesse che corrisponde a una proporzione specificata. Visione artificiale restituisce le coordinate del rettangolo delimitatore dell'area, in modo che l'applicazione chiamante possa modificare l'immagine originale in base alle esigenze. Il modello di ritaglio smart versione 4.0 è un'implementazione più avanzata e funziona con una gamma più ampia di immagini di input. È disponibile solo in aree geografiche specifiche. Vedere Disponibilità a livello di area. |
Generare un'anteprima (v3.2) (anteprima v4.0) |
Rilevare i marchi (solo v3.2) | È possibile identificare i marchi commerciali in immagini o video da un database di migliaia di logo globali. È ad esempio possibile usare questa funzionalità per individuare i marchi più popolari sui social media o quelli più prevalenti nel posizionamento dei prodotti multimediali. | Rilevare i marchi |
Classificare un'immagine (solo v3.2) | È possibile identificare e classificare un'intera immagine usando una tassonomia di categorie con gerarchie ereditarie di tipo padre/figlio. Le categorie possono essere usate singolarmente o con i nuovi modelli di assegnazione di tag. L'inglese è attualmente l'unica lingua supportata per l'assegnazione di tag e la classificazione di immagini. |
Classificare un'immagine |
Rilevare i visi (solo v3.2) | È possibile rilevare visi in un'immagine e fornire informazioni su ogni viso rilevato. Visione di Azure AI restituisce le coordinate, un rettangolo, il sesso e l'età per ogni viso rilevato. È anche possibile usare l'API Viso dedicata per questi scopi. Fornisce un'analisi più dettagliata, ad esempio l'identificazione facciale e il rilevamento della posizione. |
Rilevare visi |
Rilevare i tipi di immagine (solo v3.2) | È possibile rilevare le caratteristiche di un'immagine, ad esempio per determinare se un'immagine è un disegno a linee o per ottenere la probabilità che un'immagine sia ClipArt. | Rilevare i tipi di immagine |
Rilevare contenuti specifici di dominio (solo v3.2) | È possibile usare modelli di dominio per rilevare e identificare contenuti specifici del dominio in un'immagine, ad esempio celebrità e luoghi di interesse. Se ad esempio un'immagine contiene persone, Visione di Azure AI può usare un modello di dominio per le celebrità per determinare se le persone rilevate nell'immagine corrispondono a celebrità note. | Rilevare contenuti specifici del dominio |
Rilevare la combinazione di colori (solo v3.2) | È possibile analizzare l'utilizzo dei colori in un'immagine. Visione di Azure AI può determinare se un'immagine è in bianco e nero o a colori e nel caso delle immagini a colore può identificare il colore dominante e i colori in primo piano. | Rilevare la combinazione di colori |
Moderare il contenuto nelle immagini (solo v3.2) | È possibile usare Visione di Azure AI per rilevare i contenuti per adulti in un'immagine e restituire punteggi di confidenza per le diverse classificazioni. La soglia per contrassegnare i contenuti può essere impostata tramite un indicatore di scorrimento in base alle preferenze dell'utente. | Rilevare il contenuto per adulti |
Riconoscimento del prodotto (v4.0 solo anteprima) (deprecato)
Importante
Questa funzionalità è ora deprecata. Il 10 gennaio 2025, l'API di anteprima Analisi immagini di Intelligenza artificiale di Azure 4.0, Rilevamento oggetti personalizzati e Riconoscimento del prodotto verrà ritirata. Dopo questa data, le chiamate API a questi servizi avranno esito negativo.
Per mantenere il funzionamento dei modelli, passare a Visione personalizzata di Azure AI, ora disponibile a livello generale. Visione personalizzata offre funzionalità simili a quelle in fase di ritiro.
Le API di riconoscimento dei prodotti consentono di analizzare le foto degli scaffali di un negozio al dettaglio. È possibile rilevare la presenza o l’assenza di prodotti e ottenere le coordinate del rettangolo delimitatore. È da usare in combinazione con la personalizzazione del modello per eseguire il training di un modello per identificare prodotti specifici. È anche possibile confrontare i risultati del riconoscimento dei prodotti con il documento del planogramma del negozio.
Incorporamenti multimodali (solo v4.0)
Le API di incorporamento multimodale consentono la vettorizzazione di immagini e query di testo. Convertono le immagini in coordinate in uno spazio vettoriale multidimensionale. Le query di testo in ingresso possono quindi essere convertite anche in vettori e le immagini possono essere abbinate al testo in base alla prossimità semantica. In questo modo l'utente può cercare un set di immagini usando testo senza la necessità di usare tag di immagine o altri metadati. La prossimità semantica restituisce spesso risultati di ricerca migliori.
L'API 2024-02-01
include un modello multilingue che supporta la ricerca di testo in 102 lingue. Il modello originale solo in lingua inglese è ancora disponibile, ma non può essere combinato con il nuovo modello nello stesso indice di ricerca. Se testo e immagini sono stati vettorializzati con il modello solo in lingua inglese, tali vettori non saranno compatibili con i vettori per testo e immagini multilingue.
Queste API sono disponibili solo in determinate aree geografiche. Vedere Disponibilità a livello di area.
Rimozione in background (solo anteprima v4.0)
Importante
Questa funzionalità è ora deprecata. Il 10 gennaio 2025, l'API segmento di Analisi immagini di Intelligenza artificiale di Azure 4.0 e il servizio di rimozione in background verranno ritirati. Tutte le richieste a questo servizio avranno esito negativo dopo questa data.
Per mantenere un funzionamento senza problemi dei modelli, installare il modello open source Firenze 2 e utilizzare la relativa funzionalità Region to segmentation, che consente un'operazione di rimozione in background simile.
Analisi immagini 4.0 (anteprima) offre la possibilità di rimuovere lo sfondo di un'immagine. Questa funzionalità può restituire un'immagine dell'oggetto in primo piano rilevato con uno sfondo trasparente o un'immagine alfa opaco in scala di grigi che mostra l'opacità dell'oggetto in primo piano rilevato.
Immagine originale | Con lo sfondo rimosso | Opacità alfa |
---|---|---|
Limiti del servizio
Requisiti di input
L'analisi delle immagini funziona solo su immagini che soddisfano i requisiti seguenti:
- L'immagine deve essere presentata in formato JPEG, PNG, GIF, BMP, WEBP, ICO, TIFF o MPO
- Le dimensioni del file dell'immagine devono essere minori di 20 megabyte (MB)
- Le dimensioni dell'immagine devono essere superiori a 50 x 50 pixel e inferiori a 16.000 x 16.000 pixel
Suggerimento
I requisiti di input per gli incorporamenti multimodali sono diversi e sono elencati in Incorporamenti multimodali
Supporto di versioni in lingue diverse
Diverse funzionalità di Analisi delle immagini sono disponibili in lingue diverse. Vedere la pagina Lingue supportate.
Aree di disponibilità
Per usare le API di Analisi delle immagini, è necessario creare una risorsa di Visione di Azure AI in un'area supportata. Le funzionalità di Analisi delle immagini sono disponibili nelle aree seguenti:
Paese | Analyze Image (Analisi dell'immagine) (meno i sottotitoli 4.0) |
Analyze Image (Analisi dell'immagine) (incluse i sottotitoli 4.0) |
Riconoscimento del prodotto | Incorporamenti multimodali | Rimozione sfondo |
---|---|---|---|---|---|
Stati Uniti orientali | ✅ | ✅ | ✅ | ✅ | ✅ |
Stati Uniti occidentali | ✅ | ✅ | ✅ | ✅ | |
West US 2 | ✅ | ✅ | ✅ | ||
Francia centrale | ✅ | ✅ | ✅ | ✅ | |
Europa settentrionale | ✅ | ✅ | ✅ | ✅ | |
Europa occidentale | ✅ | ✅ | ✅ | ✅ | |
Svezia centrale | ✅ | ✅ | |||
Svizzera settentrionale | ✅ | ✅ | |||
Australia orientale | ✅ | ✅ | |||
Asia sud-orientale | ✅ | ✅ | ✅ | ✅ | |
Asia orientale | ✅ | ✅ | |||
Corea centrale | ✅ | ✅ | ✅ | ✅ | |
Giappone orientale | ✅ | ✅ |
Privacy e sicurezza dei dati
Come con tutti i Servizi di Azure AI, gli sviluppatori che usano il servizio Visione di Azure AI devono conoscere i criteri di Microsoft per i dati dei clienti. Per altre informazioni, vedere la pagina sui Servizi di Azure AI nel Centro protezione di Microsoft.
Passaggi successivi
Seguire questa guida di avvio rapido nel linguaggio di sviluppo preferito per iniziare a usare Analisi delle immagini e versione dell'API: