Attività e tecniche di visione artificiale
Annotazioni
Per altri dettagli, vedi la scheda Testo e immagini .
Il termine "visione artificiale" si riferisce a una serie di attività e tecniche in cui il software di intelligenza artificiale elabora l'input visivo; in genere da immagini, video o flussi di fotocamere live. Visione artificiale è un campo ben consolidato dell'IA e le tecniche usate per estrarre informazioni dall'input visivo si sono sviluppate in modo significativo nel corso degli anni.
Classificazione delle immagini
Una delle soluzioni di visione artificiale meno recenti è una tecnica denominata classificazione delle immagini, in cui viene usato un modello sottoposto a training con un numero elevato di immagini per stimare un'etichetta di testo in base al contenuto di un'immagine.
Si supponga, ad esempio, che un negozio di alimentari voglia implementare un sistema di pagamento intelligente che identifichi automaticamente i prodotti. Ad esempio, il cliente potrebbe posizionare frutta o verdura su una scala al checkout e un'applicazione di intelligenza artificiale connessa a una fotocamera potrebbe identificare automaticamente i tipi di produzione (mela, arancia, banana e così via) e addebitare l'importo appropriato in base al suo peso. Affinché questa soluzione funzioni, è necessario eseguire il training di un modello con un volume elevato di immagini, ognuna con il nome corretto. Il risultato è un modello che può usare le caratteristiche visive di un'immagine per stimare il soggetto principale.
Rilevamento di oggetti
Si supponga che il negozio di alimentari voglia un sistema più sofisticato, in cui il checkout può analizzare più elementi al checkout e identificare ognuno di essi. Un approccio comune a questo tipo di problema è denominato "rilevamento di oggetti". I modelli di rilevamento oggetti esaminano più aree in un'immagine per trovare singoli oggetti e le relative posizioni. La previsione risultante del modello include gli oggetti rilevati e le aree specifiche dell'immagine in cui appaiono, indicate dalle coordinate del rettangolo di delimitazione.
Segmentazione semantica
Un altro modo più sofisticato per rilevare gli oggetti in un'immagine è denominato "segmentazione semantica". In questo approccio viene eseguito il training di un modello per trovare oggetti e classificare singoli pixel nell'immagine in base all'oggetto a cui appartengono. Il risultato di questo processo è una stima molto più precisa della posizione degli oggetti nell'immagine.
Analisi contestuale delle immagini
I modelli di visione artificiale più recenti vengono sottoposti a training per trovare relazioni contestuali tra gli oggetti nelle immagini e il testo che li descrive. Il risultato è una capacità di interpretare semanticamente un'immagine per determinare quali oggetti e attività rappresenta; e generare descrizioni appropriate o suggerire tag pertinenti.
Una persona che mangia una mela.