Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
I servizi di Azure AI aiutarno sviluppatori e organizzazioni a creare applicazioni intelligenti, all'avanguardia, pronte per il mercato e responsabili con API e modelli predefiniti, personalizzabili e pronti all'uso.
Questo articolo illustra i servizi di intelligenza artificiale che forniscono funzionalità di elaborazione di video e immagini, ad esempio l'analisi visiva e la generazione di immagini, il rilevamento degli oggetti, la classificazione delle immagini e il riconoscimento facciale.
Servizi
I servizi seguenti offrono funzionalità di elaborazione video e immagini per i servizi di intelligenza artificiale:
-
Usa Azure OpenAI per la generazione di immagini dal linguaggio naturale utilizzando modelli generativi di immagini preaddestrati. Ad esempio, è possibile usare Azure OpenAI per generare arte personalizzata su richiesta.
Usare Azure OpenAI quando è necessario eseguire analisi non specifiche sulle immagini. Ad esempio, è possibile usare Azure OpenAI per generare descrizioni di accessibilità.
Non usare Azure OpenAI se si vogliono usare modelli di generazione di immagini open source disponibili in Azure Machine Learning.
Non usare Azure OpenAI se è necessario eseguire tipi specifici di elaborazione di immagini, ad esempio l'estrazione di moduli, il riconoscimento dei visi o il rilevamento delle caratteristiche delle immagini specializzate nel dominio. Per questi scenari, usare o creare soluzioni di intelligenza artificiale progettate in modo specifico per tali scopi.
Visione artificiale di Microsoft Azure
Usare Visione quando è necessario il riconoscimento ottico dei caratteri (OCR), l'analisi delle immagini o l'analisi video di base per rilevare il movimento e altri eventi.
Non usare Vision per l'analisi che grandi modelli multimodali e fondamentali supportano già.
Non usare Visione per moderare il contenuto. Usare invece La sicurezza dei contenuti per intelligenza artificiale di Microsoft Azure.
Visione personalizzata di Intelligenza artificiale di Microsoft Azure
Usare Visione personalizzata per requisiti specifici che non possono essere soddisfatti dall'analisi delle immagini fornita da Visione. Ad esempio, Visione personalizzata può riconoscere oggetti insoliti e difetti di produzione. Può anche fornire classificazioni personalizzate dettagliate.
Non usare Visione personalizzata se è necessario il rilevamento di oggetti di base o il rilevamento dei volti. Usare invece Azure AI Face o Vision.
Non usare Visione personalizzata per l'analisi visiva di base. Usare invece modelli di Azure OpenAI capaci di visione o modelli open source in Machine Learning.
-
Usa Azure AI Face quando è necessario verificare se i volti sono autentici o falsificati, o per identificare, raggruppare o trovare volti simili.
Non usare Azure AI Face per rilevare le emozioni nei volti o eseguire altre analisi di alto livello sui volti. Usare invece modelli linguistici multilingue per tali attività.
Video Indexer per intelligenza artificiale di Microsoft Azure
Usare Video Indexer per attività avanzate di analisi video che non possono essere gestite dall'analisi video di base in Visione.
Non usare Video Indexer per attività di analisi video di base, ad esempio il conteggio e il movimento e il rilevamento degli eventi. L'analisi video di base in Visione è più conveniente per queste attività.
OpenAI di Azure
Azure OpenAI fornisce l'accesso ai modelli di linguaggio avanzati di OpenAI , inclusa la generazione più recente di modelli GPT. Questi modelli supportano l'analisi visiva e le generazioni di immagini. DALL-E supporta anche la generazione di immagini.
Visione
Visione fornisce algoritmi avanzati che elaborano le immagini e restituiscono informazioni in base alle funzionalità visive specificate. Offre quattro servizi: OCR, Viso per intelligenza artificiale di Azure, analisi delle immagini e analisi spaziale.
Funzionalità
La tabella seguente fornisce un elenco delle funzionalità disponibili in Visione.
Capacità | Descrizione |
---|---|
OCR | OCR estrae testo dalle immagini. È possibile usare l'API Lettura per estrarre testo stampato e scritto a mano da foto e documenti. Usa modelli basati su Deep Learning per elaborare il testo in un'ampia gamma di superfici e sfondi. Questi materiali includono documenti aziendali, fatture, ricevute, poster, biglietti da visita, lettere e lavagne. Le API OCR supportano l'estrazione di testo stampato in diverse lingue. |
Analisi delle immagini di Visione artificiale di Azure | Analisi immagini estrae molte funzionalità visive dalle immagini, ad esempio oggetti, visi e descrizioni di testo generate automaticamente. È possibile creare modelli di identificatore di immagine personalizzati usando Image Analysis 4.0 basato sul modello di base di Firenze. |
Analisi video | L'analisi video include funzionalità correlate ai video, come l'analisi spaziale e il recupero video. L’Analisi spaziale analizza la presenza e lo spostamento delle persone in un feed video e produce eventi a cui altri sistemi possono rispondere. |
Visione personalizzata
Visione personalizzata è un servizio di riconoscimento delle immagini che è possibile usare per compilare, distribuire e migliorare i modelli di identificatore di immagine. Un identificatore di immagini applica etichette alle immagini, in base alle relative caratteristiche visive. Ogni etichetta rappresenta una classificazione o un oggetto. Utilizzare Visio personalizzato per specificare le proprie etichette e formare modelli personalizzati per rilevarle.
Visione personalizzata usa un algoritmo di Machine Learning per analizzare le immagini per le funzionalità personalizzate. Si inviano set di immagini che hanno e non hanno le caratteristiche visive desiderate. Etichettare quindi le immagini con etichette personalizzate o tag al momento dell'invio. L'algoritmo esegue il training in base a questi dati e calcola la propria accuratezza usando le stesse immagini per testare il proprio funzionamento. Dopo aver eseguito il training del modello, è possibile testare, ripetere il training e infine usare il modello nell'app di riconoscimento delle immagini per classificare le immagini o rilevare gli oggetti. È anche possibile esportare il modello per usarlo offline.
Funzionalità
La tabella seguente fornisce un elenco delle funzionalità disponibili in Visione personalizzata.
Capacità | Descrizione |
---|---|
Classificazione immagini | Stimare una categoria o una classe in base a un set di input, denominati funzionalità. Calcolare un punteggio di probabilità per ogni classe possibile e restituire un'etichetta che indica la classe a cui appartiene l'oggetto più probabile. Per usare questo modello, sono necessari dati costituiti dalle caratteristiche e dalle relative etichette. |
Rilevamento oggetti | Ottiene le coordinate di un oggetto in un'immagine. Per usare questo modello, sono necessari dati costituiti dalle caratteristiche e dalle relative etichette. |
Casi d'uso
Nella tabella seguente viene fornito un elenco dei possibili casi d'uso per Visione personalizzata.
Caso d'uso | Descrizione |
---|---|
Usare Visione personalizzata con un dispositivo IoT per segnalare gli stati di visualizzazione. | Usare Custom Vision per addestrare un dispositivo dotato di fotocamera a rilevare stati visivi. È possibile eseguire questo scenario di rilevamento in un dispositivo IoT usando un modello ONNX esportato. Uno stato visivo descrive il contenuto di un'immagine, ad esempio una stanza vuota o una stanza con persone o un vialetto vuoto o un vialetto con un camion. |
Classificare immagini e oggetti. | Analizzare le foto e cercare logo specifici eseguendo il training di un modello personalizzato. |
Viso di Azure AI
Azure AI Face offre algoritmi di intelligenza artificiale che rilevano, riconoscono e analizzano i volti umani nelle immagini. Il software di riconoscimento facciale è importante in vari scenari, ad esempio identificazione, controllo di accesso senza tocco e sfocatura automatica del viso per la privacy.
Funzionalità
La tabella seguente fornisce un elenco delle funzionalità disponibili in Viso di intelligenza artificiale di Azure.
Capacità | Descrizione |
---|---|
Rilevamento e analisi facciale | Identifica le aree di un'immagine che contengono un viso umano, in genere restituendo le coordinate del riquadro di delimitazione che formano un rettangolo intorno al volto. |
Individuare visi simili | L'operazione Trova simile abbina un viso di destinazione a un set di volti candidati. Identifica un gruppo più piccolo di visi che assomigliano strettamente al viso di destinazione. Questa funzionalità è utile per eseguire una ricerca del viso in base all'immagine. |
Gruppo volti | L'operazione di raggruppamento divide un insieme di volti sconosciuti in vari gruppi più piccoli in base alla somiglianza. Ogni gruppo è un sottoinsieme proprio indipendente dell'insieme di facce originale. Restituisce anche una singola messyGroup matrice contenente gli ID viso per i quali non sono state trovate analogie. |
Identificazione | L'identificazione del viso può gestire una corrispondenza da uno a molti di un volto in un'immagine a un insieme di volti in un repository sicuro. I candidati corrispondenti vengono restituiti in base a quanto i dati del volto corrispondono efficacemente al volto di riferimento della query. |
Operazioni di riconoscimento facciale | Le aziende e le app moderne possono usare le tecnologie di riconoscimento viso per intelligenza artificiale di Azure, tra cui la verifica del viso (o la corrispondenza uno-a-uno) e l'identificazione dei visi (o una-a-molti) per verificare che un utente sia chi dichiara di essere. |
Rilevamento della vitalità | Il rilevamento della presenza è una funzione anti-spoofing che verifica se un utente è fisicamente presente davanti alla telecamera. Viene usato per impedire attacchi di spoofing che usano una foto stampata, un video registrato o una maschera 3D del viso dell'utente. |
Casi d'uso
La tabella seguente fornisce un elenco dei possibili casi d'uso per Azure AI Face.
Caso d'uso | Descrizione |
---|---|
Verificare l'identità utente | Verifica una persona confrontandola con un'immagine di un volto affidabile. Questa verifica può essere usata per concedere l'accesso alle proprietà digitali o fisiche. Nella maggior parte degli scenari, l'immagine del viso attendibile proviene da un ID rilasciato dal governo, ad esempio un passaporto o una patente di guida o da una foto di registrazione scattata di persona. Durante la verifica, il rilevamento della vitalità può svolgere un ruolo cruciale nel verificare che l'immagine provenga da una persona reale e non da una foto stampata o una maschera. |
Offuscamento dei volti | Oscura o sfoca i volti rilevati delle persone registrate in un video per proteggerne la privacy. |
Controllo di accesso senza tocco | Rispetto a metodi come tessere o biglietti, l'identificazione facciale opt-in consente un'esperienza di controllo degli accessi migliorata, riducendo al contempo i rischi per l'igiene e la sicurezza derivanti dalla condivisione, dalla perdita o dal furto di supporti fisici. Il riconoscimento facciale assiste nel processo di check-in con un essere umano coinvolto per il check-in negli aeroporti, stadi, parchi a tema, edifici, chioschi di ricevimento presso uffici, ospedali, palestre, club o scuole. |
Indicizzatore di Video
Video Indexer è un'app cloud che fa parte dei servizi di intelligenza artificiale. Viene creato usando strumenti di intelligenza artificiale di Azure come Viso, Traduttore, Visione e Riconoscimento vocale. Consente di estrarre le informazioni dettagliate dai video usando i modelli video e audio di Video Indexer.
Funzionalità
La tabella seguente fornisce un elenco di alcune delle funzionalità disponibili in Video Indexer.
Capacità | Descrizione |
---|---|
Identificazione e trascrizione di discorsi in più lingue | Identifica la lingua parlata in segmenti diversi dell'audio. Invia ogni segmento del file multimediale da trascrivere, quindi combina nuovamente la trascrizione in un'unica trascrizione unificata. |
Rilevamento volti | Rileva e raggruppa i visi visualizzati nel video. |
Identificazione di celebrità | Identifica oltre 1 milione di celebrità, ad esempio leader mondiali, attori, artisti, atleti, ricercatori, aziende e leader tecnologici in tutto il mondo. I dati su queste celebrità sono disponibili anche su vari siti Web, come IMDB e Wikipedia. |
Identificazione del volto basata sull'account. | Esegue il training di un modello per un account specifico. Riconosce quindi i volti nel video in base al modello addestrato. |
Rilevamento delle persone osservate (anteprima) | Rileva le persone osservate nei video. Fornisce informazioni come la posizione della persona all'interno del fotogramma video usando i rettangoli delimitatori. Include anche i timestamp di inizio e fine esatti per quando viene visualizzata una persona e un livello di confidenza per il rilevamento. |
Trascrizione audio | Converte la voce in testo in più di 50 lingue e consente estensioni. |
Rilevamento lingua | Identifica la lingua parlata dominante. |
Riduzione del rumore | ripulisce le registrazioni audio di telefonia o le registrazioni con rumori (in base ai filtri Skype). |
Traduzione | Crea traduzioni della trascrizione audio in più lingue. |
Per altre informazioni, vedere la documentazione di Video Indexer.
Casi d'uso
Nella tabella seguente è riportato un elenco dei possibili casi d'uso per Video Indexer.
Caso d'uso | Descrizione |
---|---|
Ricerca avanzata | usare le informazioni dettagliate estratte dal video per ottimizzare l'esperienza di ricerca in un catalogo video. L'indicizzazione del testo parlato e dei visi può ad esempio consentire di usare l'esperienza di ricerca per trovare i momenti in un video in cui una persona specifica ha pronunciato determinate parole o in cui due persone vengono viste insieme. La ricerca basata su tali informazioni dettagliate dai video è applicabile a agenzie di notizie, istituti di istruzione, emittenti televisive, proprietari di contenuti di intrattenimento, app line-of-business aziendali e in genere a qualsiasi settore con una raccolta video che gli utenti devono cercare. |
Creazione di contenuto | Creare trailer, reel in evidenza, contenuti per social media o clip di notizie basati sulle informazioni dettagliate estratte da Video Indexer dai contenuti. I fotogrammi chiave, gli indicatori di scena e i timestamp delle persone e delle etichette semplificano il processo di creazione. Questi elementi consentono di individuare rapidamente le parti del video necessarie quando si crea contenuto. |
Accessibilità | Se si vuole rendere disponibile il contenuto per le persone con disabilità o si vuole che il contenuto venga distribuito in aree diverse che usano lingue diverse, è possibile usare la trascrizione e la traduzione fornita da Video Indexer in più lingue. |
Monetizzazione | Video Indexer consente di aumentare il valore dei video. Ad esempio, i settori che si basano sui ricavi degli annunci, ad esempio i media di notizie e i social media, possono fornire annunci pertinenti usando le informazioni dettagliate estratte come segnali aggiuntivi al server annunci. |
Moderazione del contenuto | Usare modelli di moderazione del contenuto testuale e visivo per mantenere gli utenti al sicuro da contenuti inappropriati e verificare che il contenuto pubblicato corrisponda ai valori dell'organizzazione. È possibile bloccare automaticamente determinati video o avvisare gli utenti sul contenuto. |
Consigli | le informazioni dettagliate dei video possono essere usate per migliorare l'engagement degli utenti evidenziando i momenti più pertinenti per loro. Contrassegnando ogni video con metadati aggiuntivi, è possibile consigliare agli utenti i video più rilevanti ed evidenziare le parti del video che soddisfano le proprie esigenze. |
Passaggi successivi
- Che cos'è Visione?
- Percorso di apprendimento: Sviluppare soluzioni di elaborazione del linguaggio naturale con i servizi di intelligenza artificiale
- Percorso di apprendimento: Introduzione ai servizi di intelligenza artificiale
- Percorso di apprendimento: Nozioni fondamentali sull'intelligenza artificiale di Microsoft Azure: Visione artificiale
- Percorso di apprendimento: Creare soluzioni di visione artificiale con Visione artificiale
- Percorso di apprendimento: Creare una soluzione di riconoscimento delle immagini con i servizi Azure IoT Edge e intelligenza artificiale