Che cos'è l'analisi delle immagini?

Il servizio di analisi delle immagini di Visione artificiale può estrarre un'ampia gamma di funzionalità visive dalle immagini. Ad esempio, può determinare se un'immagine contiene contenuti per adulti, trovare marchi o oggetti specifici o trovare visi umani.

La versione più recente di Analisi immagini, 4.0, ora disponibile in anteprima pubblica, include nuove funzionalità come il rilevamento OCR sincrono e le persone. È consigliabile usare questa versione in futuro.

È possibile usare l'analisi delle immagini tramite un SDK della libreria client o chiamando direttamente l'API REST . Seguire la guida introduttiva per iniziare.

In alternativa, è possibile provare le funzionalità di Analisi immagini in modo rapido e semplice nel browser usando Vision Studio.

Questa documentazione contiene i tipi di articoli seguenti:

  • Le guide introduttive sono istruzioni dettagliate che consentono di effettuare chiamate al servizio e ottenere risultati in un breve periodo di tempo.
  • Le guide pratiche contengono istruzioni per l'uso del servizio in modi più specifici o personalizzati.
  • Gli articoli concettuali forniscono spiegazioni approfondite delle funzionalità e delle funzionalità del servizio.
  • Le esercitazioni sono guide più lunghe che illustrano come usare questo servizio come componente in soluzioni aziendali più ampie.

Per un approccio più strutturato, seguire un modulo training per l'analisi delle immagini.

Funzionalità di analisi delle immagini

È possibile analizzare le immagini per ricevere informazioni dettagliate sulle caratteristiche e gli aspetti visivi. Tutte le funzionalità nell'elenco seguente sono fornite dall'API Analizza immagine . Per iniziare, seguire una guida di avvio rapido.

Estrarre testo dalle immagini (anteprima)

La versione 4.0 dell'analisi delle immagini offre la possibilità di estrarre testo dalle immagini. Rispetto alla versione async Visione artificiale 3.2 GA Read, la nuova versione offre il noto motore OCR di lettura in un'API sincrona ottimizzata per le prestazioni unificata che semplifica l'accesso a tutte le informazioni dettagliate sulle immagini, incluso OCR in un'unica operazione API. Estrarre testo dalle immagini

Rilevare le persone nelle immagini (anteprima)

La versione 4.0 di Analisi immagini offre la possibilità di rilevare le persone visualizzate nelle immagini. Vengono restituite le coordinate del rettangolo di selezione di ogni persona rilevata, insieme a un punteggio di attendibilità. Rilevamento delle persone

Assegnare tag agli elementi visivi

Identificare e assegnare tag agli elementi visivi di un'immagine in base a un set di migliaia di oggetti riconoscibili, esseri viventi, panorami e azioni. Quando i tag sono ambigui o non di conoscenza comune, la risposta dell'API fornisce suggerimenti per chiarire il contesto del tag. L'assegnazione di tag non è limitata al soggetto principale, ad esempio una persona in primo piano, ma include anche scenari (interni o esterni), arredamenti, strumenti, piante, animali, accessori, gadget e così via. Assegnare tag agli elementi visivi

Immagini di uno skateboarder con tag ascoltano a destra

Rilevare oggetti

Il rilevamento di oggetti è simile all'assegnazione di tag, ma l'API restituisce le coordinate del rettangolo di selezione per ogni tag applicato. Se, ad esempio, un'immagine contiene un cane, gatto e una persona, l'operazione di rilevamento elencherà tali oggetti insieme alle relative coordinate nell'immagine. È possibile usare questa funzionalità per elaborare ulteriormente le relazioni tra gli oggetti in un'immagine. Questa funzionalità consente anche di sapere quando sono presenti più istanze dello stesso tag in un'immagine. Rilevare oggetti

Immagine di un ufficio con un rettangolo disegnato intorno a un portatile

Rilevare marchi

È possibile identificare i marchi commerciali in immagini o video da un database di migliaia di logo globali. È ad esempio possibile usare questa funzionalità per individuare i marchi più popolari sui social media o quelli più prevalenti nel posizionamento dei prodotti multimediali. Rilevare marchi

Classificare un'immagine

È possibile identificare e classificare un'intera immagine usando una tassonomia di categorie con gerarchie ereditarie di tipo padre/figlio. Le categorie possono essere usate singolarmente o con i nuovi modelli di assegnazione di tag.
L'inglese è attualmente l'unica lingua supportata per l'assegnazione di tag e la classificazione di immagini. Classificare un'immagine

Descrivere un'immagine

È possibile generare una descrizione di un'intera immagine in un linguaggio leggibile dall'utente, con frasi complete. Gli algoritmi di Visione artificiale generano descrizioni diverse in base agli oggetti identificati nell'immagine. Tutte le descrizioni vengono valutate e per ognuna viene generato un punteggio di attendibilità. Viene quindi restituito un elenco dei punteggi di attendibilità in ordine decrescente. Descrivere un'immagine

Immagine delle mucche con una semplice descrizione a destra

Rilevare visi

È possibile rilevare visi in un'immagine e fornire informazioni su ogni viso rilevato. Visione artificiale restituisce le coordinate, un rettangolo, il sesso e l'età per ogni viso rilevato. Rilevare visi

È anche possibile usare l'API Viso dedicato per questi scopi. Fornisce un'analisi più dettagliata, ad esempio l'identificazione facciale e il rilevamento della posizione.

Rilevare i tipi di immagine

È possibile rilevare le caratteristiche di un'immagine, ad esempio per determinare se un'immagine è un disegno a linee o per ottenere la probabilità che un'immagine sia ClipArt. Rilevare i tipi di immagine

Rilevare contenuti specifici di dominio

È possibile usare modelli di dominio per rilevare e identificare contenuti specifici del dominio in un'immagine, ad esempio celebrità e luoghi di interesse. Se ad esempio un'immagine contiene persone, Visione artificiale può usare un modello di dominio per le celebrità per determinare se le persone rilevate nell'immagine corrispondono a celebrità note. Rilevare contenuti specifici del dominio

Rilevare la combinazione di colori

È possibile analizzare l'utilizzo dei colori in un'immagine. Visione artificiale può determinare se un'immagine è bianca o nera & e, per le immagini a colori, identificare i colori dominanti e accenti. Rilevare la combinazione di colori

Ottenere l'area di interesse/ritaglio intelligente

Analizzare il contenuto di un'immagine per restituire le coordinate dell'area di interesse corrispondente a una proporzione specificata. Visione artificiale restituisce le coordinate del rettangolo di selezione dell'area, in modo che l'applicazione chiamante possa modificare l'immagine originale in base alle esigenze. Generare un'anteprima

Immagine di una persona su una montagna, con versioni ritagliate a destra

Moderare i contenuti nelle immagini

È possibile usare Visione artificiale per rilevare i contenuti per adulti in un'immagine e restituire punteggi di attendibilità per le diverse classificazioni. La soglia per contrassegnare i contenuti può essere impostata tramite un indicatore di scorrimento in base alle preferenze dell'utente.

Requisiti dell'immagine

L'analisi delle immagini funziona solo su immagini che soddisfano i requisiti seguenti:

  • L'immagine deve essere presentata in formato JPEG, PNG, GIF o BMP
  • Le dimensioni del file dell'immagine devono essere minori di 4 megabyte (MB)
  • Le dimensioni dell'immagine devono essere superiori a 50 x 50 pixel e inferiori a 16.000 x 16.000 pixel

Sicurezza e privacy dei dati

Come con tutti i Servizi cognitivi, gli sviluppatori che usano il servizio Visione artificiale devono conoscere i criteri di Microsoft sui dati dei clienti. Per altre informazioni, vedere la pagina sui Servizi cognitivi nel Centro protezione di Microsoft.

Passaggi successivi

Introduzione all'analisi delle immagini seguendo la guida introduttiva nel linguaggio di sviluppo preferito: