Incorporamenti in formato logistico (versione 4.0)

Articolo
02/23/2024

L'incorporamento della funzionalità è il processo di generazione di una rappresentazione numerica di un'immagine che acquisisce le sue caratteristiche e caratteristiche in un formato vettoriale. Questi vettori codificano il contenuto e il contesto di un'immagine in modo compatibile con la ricerca di testo sullo stesso spazio vettoriale.

I sistemi di recupero delle immagini hanno tradizionalmente usato funzionalità estratte dalle immagini, ad esempio etichette di contenuto, tag e descrittori di immagini, per confrontare le immagini e classificarle in base alla somiglianza. Tuttavia, la ricerca di somiglianza vettoriale sta guadagnando maggiore popolarità a causa di numerosi vantaggi rispetto alla ricerca tradizionale basata su parole chiave e sta diventando un componente essenziale nei servizi di ricerca di contenuti più diffusi.

Qual è la differenza tra la ricerca vettoriale e la ricerca basata su parole chiave?

La ricerca con parole chiave è il metodo più semplice e tradizionale di recupero delle informazioni. In questo approccio, il motore di ricerca cerca la corrispondenza esatta delle parole chiave o delle frasi immesse dall'utente nella query di ricerca e la confronta con le etichette e i tag forniti per le immagini. Il motore di ricerca restituisce quindi immagini che contengono le parole chiave esatte come tag di contenuto ed etichette di immagine. La ricerca di parole chiave si basa principalmente sulla capacità dell'utente di usare termini di ricerca pertinenti e specifici.

La ricerca vettoriale cerca grandi raccolte di vettori nello spazio ad alta dimensione per trovare vettori simili a una determinata query. La ricerca vettoriale cerca analogie semantiche acquisendo il contesto e il significato della query di ricerca. Questo approccio è spesso più efficiente rispetto alle tecniche tradizionali di recupero delle immagini, in quanto può ridurre lo spazio di ricerca e migliorare l'accuratezza dei risultati.

Applicazioni aziendali

L'incorporamento della modalità di incorporamento consente di usare diverse applicazioni in diversi campi, tra cui:

Gestione degli asset digitali: l'incorporamento di Multifunzione può essere usato per gestire grandi raccolte di immagini digitali, ad esempio musei, archivi o gallerie online. Gli utenti possono cercare immagini in base alle funzionalità visive e recuperare le immagini che soddisfano i criteri.
Sicurezza e sorveglianza: la vettorializzazione può essere usata nei sistemi di sicurezza e sorveglianza per cercare immagini basate su caratteristiche o modelli specifici, ad esempio in, persone e rilevamento degli oggetti o rilevamento delle minacce.
Recupero di immagini forensi: la vettorializzazione può essere usata nelle indagini forensi per cercare immagini in base al contenuto visivo o ai metadati, ad esempio nei casi di criminalità informatica.
E-commerce: la vettorializzazione può essere usata nelle applicazioni di shopping online per cercare prodotti simili in base alle loro caratteristiche o descrizioni o fornire raccomandazioni in base agli acquisti precedenti.
Moda e design: la vettorializzazione può essere usata nella moda e nella progettazione per cercare immagini in base alle caratteristiche visive, ad esempio colore, motivo o trama. Ciò può aiutare designer o rivenditori a identificare prodotti o tendenze simili.

Attenzione

L'incorporamento di Modalità non è progettato per analizzare le immagini mediche per le caratteristiche diagnostiche o i modelli di malattia. Non utilizzare l'incorporamento Di Classi per scopi medici.

Che cosa sono gli incorporamenti vettoriali?

Gli incorporamenti vettoriali sono un modo per rappresentare il contenuto, ovvero testo o immagini, come vettori di numeri reali in uno spazio ad alta dimensione. Gli incorporamenti vettoriali vengono spesso appresi da grandi quantità di dati testuali e visivi usando algoritmi di Machine Learning, ad esempio reti neurali.

Ogni dimensione del vettore corrisponde a una caratteristica o a un attributo diverso del contenuto, ad esempio il significato semantico, il ruolo sintattico o il contesto in cui viene comunemente visualizzato. In Visione artificiale di Azure, gli incorporamenti di immagini e vettori di testo hanno 1024 dimensioni.

Importante

Gli incorporamenti vettoriali possono essere confrontati e confrontati solo se provengono dallo stesso tipo di modello. Le immagini vettorializzate da un modello non saranno disponibili per la ricerca tramite un modello diverso. L'API Analisi immagini più recente offre due modelli, versione 2023-04-15 che supporta la ricerca di testo in molte lingue e il modello legacy 2022-04-11 che supporta solo l'inglese.

Come funziona?

Di seguito sono riportati i passaggi principali del processo di recupero delle immagini tramite incorporamenti Di Tipo).

Diagram of image retrieval process.

Vettorizza immagini e testo: è possibile usare le API di incorporamento delle funzionalità, VectorizeImage e VectorizeText, rispettivamente per estrarre vettori di funzionalità da un'immagine o da un testo. Le API restituiscono un singolo vettore di funzionalità che rappresenta l'intero input.

Nota

L'incorporamento della modalità non esegue alcuna elaborazione biometrica dei visi umani. Per il rilevamento e l'identificazione dei volti, vedere il servizio Viso di Intelligenza artificiale di Azure.
Misura somiglianza: i sistemi di ricerca vettoriale usano in genere metriche di distanza, ad esempio distanza coseno o distanza euclidea, per confrontare i vettori e classificarli in base alla somiglianza. La demo di Vision Studio usa la distanza del coseno per misurare la somiglianza.
Recupera immagini: usare i primi N vettori simili alla query di ricerca e recuperare le immagini corrispondenti a tali vettori dalla raccolta foto per fornire come risultato finale.

Punteggio di pertinenza

I servizi di recupero di immagini e video restituiscono un campo denominato "pertinenza". Il termine "pertinenza" indica una misura del punteggio di somiglianza tra una query e un'immagine o incorporamenti di fotogrammi video. Il punteggio di pertinenza è composto da due parti:

Somiglianza coseno (che rientra nell'intervallo di [0,1]) tra le incorporazioni di immagini e immagini o fotogrammi video.
Punteggio di metadati, che riflette la somiglianza tra la query e i metadati associati all'immagine o al fotogramma video.

Importante

Il punteggio di pertinenza è una buona misura per classificare i risultati, ad esempio immagini o fotogrammi video rispetto a una singola query. Tuttavia, il punteggio di pertinenza non può essere confrontato con precisione tra query. Pertanto, non è possibile eseguire facilmente il mapping del punteggio di pertinenza a un livello di attendibilità. Non è anche possibile creare facilmente un algoritmo soglia per eliminare i risultati irrilevanti in base esclusivamente al punteggio di pertinenza.

Requisiti di input

Input immagine

Le dimensioni del file dell'immagine devono essere inferiori a 20 megabyte (MB)
Le dimensioni dell'immagine devono essere maggiori di 10 x 10 pixel e minori di 16.000 x 16.000 pixel

Input di testo

La stringa di testo deve essere compresa tra una parola e 70 parole.

Passaggi successivi

Abilitare gli incorporamenti Di Classe per il servizio di ricerca e seguire la procedura per generare incorporamenti vettoriali per testo e immagini.

Chiamare le API di incorporamento Di Classe