Classificazione di immagini in Azure

Archiviazione BLOB di Azure
Visione artificiale di Azure
Azure Cosmos DB
Griglia di eventi di Azure
Funzioni di Azure

Idee per le soluzioni

Questo articolo descrive un'idea di soluzione. L'architetto cloud può usare queste linee guida per visualizzare i componenti principali per un'implementazione tipica di questa architettura. Usare questo articolo come punto di partenza per progettare una soluzione ben progettata in linea con i requisiti specifici del carico di lavoro.

Usando i servizi di Azure, ad esempio l'API Visione artificiale e Funzioni di Azure, le aziende possono eliminare la necessità di gestire singoli server, riducendo al contempo i costi e usando le competenze già sviluppate da Microsoft con i servizi di intelligenza artificiale di Azure. Questa soluzione risolve in modo specifico un caso d'uso per l'elaborazione delle immagini. Se si hanno esigenze di intelligenza artificiale diverse, prendere in considerazione la suite completa di servizi di intelligenza artificiale di Azure.

Architettura

Diagramma di un'architettura per le attività di classificazione delle immagini.

Scaricare un file di Visio di questa idea di soluzione.

Flusso di dati

Questo scenario include i componenti back-end di un'applicazione Web o per dispositivi mobili. Il flusso dei dati nello scenario avviene come segue:

  1. L'aggiunta di nuovi file (caricamenti di immagini) nell'archivio BLOB attiva un evento in Griglia di eventi di Azure. Il processo di caricamento può essere orchestrato tramite il Web o un'applicazione per dispositivi mobili. In alternativa, le immagini possono essere caricate separatamente nell'archivio BLOB di Azure.
  2. Griglia di eventi invia una notifica che attiva le funzioni di Azure.
  3. Funzioni di Azure chiama l'API Visione artificiale di Azure per analizzare l'immagine appena caricata. Visione artificiale di Azure accede all'immagine tramite l'URL del BLOB analizzato da Funzioni di Azure.
  4. Funzioni di Azure rende persistente la risposta dell'API Visione artificiale in Azure Cosmos DB. Questa risposta include i risultati dell'analisi, insieme ai metadati dell'immagine.
  5. I risultati possono essere utilizzati e riflessi sul Web o sul front-end mobile. Si noti che questo approccio recupera i risultati della classificazione, ma non l'immagine caricata.

Componenti

  • Visione artificiale di Azure fa parte della suite di servizi di intelligenza artificiale di Azure e viene usata per recuperare informazioni su ogni immagine.
  • Funzioni di Azure fornisce l'API back-end per l'applicazione Web. Questa piattaforma fornisce anche l'elaborazione degli eventi per le immagini caricate.
  • Griglia di eventi di Azure attiva un evento quando viene caricata una nuova immagine nell'archivio BLOB. L'immagine viene quindi elaborata con Funzioni di Azure.
  • Archiviazione BLOB di Azure archivia tutti i file di immagine caricati nell'applicazione Web, nonché tutti i file statici utilizzati dall'applicazione Web.
  • Azure Cosmos DB archivia i metadati relativi a ogni immagine caricata, inclusi i risultati dell'elaborazione da Visione artificiale API.

Alternative

  • Azure OpenAI GPT-4 Turbo con Visione (anteprima). GPT-4 Turbo with Vision è un modello bidirezionale in grado di analizzare le immagini e rispondere a domande su di esse.
  • Servizio visione artificiale personalizzato. L'API Visione artificiale restituisce un set di categorie basate sulla tassonomia. Se è necessario elaborare informazioni non restituite dall'API Visione artificiale, prendere in considerazione il Servizio visione artificiale personalizzato, che consente di creare classificatori di immagini personalizzati.
  • Ricerca di intelligenza artificiale di Azure (in precedenza Ricerca di Azure). Se il caso d'uso prevede l'esecuzione di query sui metadati per trovare immagini che soddisfano criteri specifici, è consigliabile usare Ricerca di intelligenza artificiale di Azure. Ricerca di intelligenza artificiale di Azure integra perfettamente questo flusso di lavoro.
  • App per la logica. Se non è necessario reagire in tempo reale all'aggiunta di file in un BLOB, è consigliabile usare App per la logica. Un'app per la logica che può controllare se è stato aggiunto un file può essere avviata dal trigger di ricorrenza o dal trigger di finestre temporali scorrevoli.
  • Se sono presenti immagini incorporate nei documenti, usare Intelligence per i documenti di Intelligenza artificiale di Azure per individuare tali immagini. Con queste informazioni, è possibile estrarre ed eseguire ulteriori attività di visione artificiale sulle immagini incorporate. Usare Document Intelligence per raccogliere dati su tali immagini incorporate, ad esempio il numero di pagina o il testo della didascalia che possono essere archiviati insieme agli altri metadati delle immagini ricevuti tramite l'API Visione artificiale.

Dettagli dello scenario

Questo scenario è pertinente per le aziende che devono elaborare immagini.

Le potenziali applicazioni includono la classificazione di immagini per un sito Web di abbigliamento, l'analisi di testo e immagini per richieste di indennizzo assicurativo e la comprensione di dati di telemetria provenienti da screenshot di giochi. Generalmente le aziende devono sviluppare competenze nei modelli di apprendimento automatico, eseguire il training dei modelli e infine eseguire un processo personalizzato sulle immagini per ricavarne dati.

Potenziali casi d'uso

Questa soluzione è ideale per i settori retail, game, finance e insurance. Gli altri casi d'uso pertinenti includono:

  • Classificazione delle immagini in un sito Web di abbigliamento. La classificazione delle immagini può essere usata dai venditori durante il caricamento di immagini di prodotti nella piattaforma per la vendita. Possono quindi automatizzare il conseguente assegnazione di tag manuali coinvolti. I clienti possono anche cercare l'impressione visiva dei prodotti.

  • Classificazione dei dati di telemetria provenienti da screenshot di giochi. La classificazione dei videogiochi dagli screenshot si sta evolvendo in un problema rilevante nei social media, insieme alla visione artificiale. Ad esempio, quando gli streamer Twitch giocano diversi giochi in successione, potrebbero ignorare l'aggiornamento manuale delle informazioni sul flusso. L'impossibilità di aggiornare le informazioni sul flusso potrebbe comportare la classificazione errata dei flussi nelle ricerche degli utenti e potrebbe causare la perdita di potenziali visualizzazioni sia per i creatori di contenuti che per le piattaforme di streaming. Durante l'introduzione di nuovi giochi, una route modello personalizzata potrebbe essere utile per introdurre la capacità di rilevare nuove immagini da tali giochi.

  • Classificazione di immagini per richieste di indennizzo assicurativo. La classificazione delle immagini consente di ridurre il tempo e il costo dell'elaborazione e della scrittura delle attestazioni. Potrebbe aiutare ad analizzare danni naturali di emergenza, danni ai veicoli e identificare le proprietà residenziali e commerciali.

Passaggi successivi

Documentazione del prodotto

Per un percorso di apprendimento guidato, vedere:

Usare l'arricchimento tramite intelligenza artificiale con l'elaborazione di immagini e testo