Megosztás a következőn keresztül:


Multimodális beágyazások (4.0-s verzió)

A multimodális beágyazás egy kép vektoros ábrázolásának létrehozásának folyamata, amely rögzíti annak jellemzőit és jellemzőit. Ezek a vektorok úgy kódolják a kép tartalmát és környezetét, hogy kompatibilisek a szövegkereséssel ugyanazon a vektortéren.

A képlekérdezési rendszerek hagyományosan a képekből kinyert funkciókat használják, például tartalomfeliratokat, címkéket és képleírókat a képek összehasonlítására és hasonlóság alapján történő rangsorolására. A vektoros hasonlósági keresés azonban számos előnnyel jár a hagyományos kulcsszóalapú kereséssel szemben, és a népszerű tartalomkeresési szolgáltatások alapvető összetevője.

A kulcsszókeresés az információk lekérésének legalapvetőbb és hagyományos módszere. Ebben a megközelítésben a keresőmotor megkeresi a felhasználó által a keresési lekérdezésben megadott kulcsszavak vagy kifejezések pontos egyezését, és összehasonlítja a képekhez megadott címkékkel és címkékkel. A keresőmotor ezután visszaadja azokat a képeket, amelyek tartalomcímkékként és képcímkékként tartalmazzák ezeket a kulcsszavakat. A kulcsszókeresés nagymértékben függ attól, hogy a felhasználó képes-e releváns és konkrét keresési kifejezéseket használni.

A vektorkeresés nagy méretű vektorgyűjteményeket keres a nagy méretű térben, hogy megkeresse az adott lekérdezéshez hasonló vektorokat. A vektoros keresés szemantikai hasonlóságokat keres a keresési lekérdezés kontextusának és jelentésének rögzítésével. Ez a megközelítés gyakran hatékonyabb, mint a hagyományos képlekérési technikák, mivel csökkentheti a keresési területet, és javíthatja az eredmények pontosságát.

Üzleti alkalmazások

A multimodális beágyazás különféle alkalmazásokkal rendelkezik különböző mezőkben, például:

  • Digitális eszközök kezelése: A multimodális beágyazással nagy mennyiségű digitális kép kezelhető, például múzeumokban, archívumokban vagy online galériákban. A felhasználók vizuális funkciók alapján kereshetnek képeket, és lekérhetik a feltételeknek megfelelő képeket.
  • Biztonság és megfigyelés: A vektorizálás biztonsági és felügyeleti rendszerekben használható képek keresésére meghatározott jellemzők vagy minták alapján, például személyek és objektumok nyomon követése vagy fenyegetésészlelés alapján.
  • Kriminalisztikai kép lekérése: A vektorizálás a törvényszéki vizsgálatokban a képek vizuális tartalma vagy metaadatai alapján történő keresésére használható, például kiberbűnözés esetén.
  • E-kereskedelem: A vektorizálás az online vásárlási alkalmazásokban használható hasonló termékek keresésére a jellemzőik vagy leírásuk alapján, vagy javaslatot tehet a korábbi vásárlások alapján.
  • Divat és tervezés: A vektorizálás a divatban és a tervezésben használható képek keresésére vizuális jellemzőik, például szín, minta vagy anyagminta alapján. Ez segíthet a tervezőknek vagy a kiskereskedőknek a hasonló termékek vagy trendek azonosításában.

Figyelemfelhívás

A multimodális beágyazás nem diagnosztikai jellemzők vagy betegségminták orvosi képeinek elemzésére szolgál. Ne használjon multimodális beágyazást orvosi célokra.

Mik azok a vektoros beágyazások?

A vektoros beágyazások a tartalmat – szöveget vagy képeket – valós számok vektoraként ábrázolják egy nagy dimenziós térben. A vektoros beágyazásokat gyakran nagy mennyiségű szöveges és vizuális adatból tanulják meg gépi tanulási algoritmusok, például neurális hálózatok használatával.

A vektor minden dimenziója a tartalom egy másik funkciójának vagy attribútumának felel meg, például szemantikai jelentésének, szintaktikai szerepének vagy kontextusának, amelyben gyakran megjelenik. Az Azure AI Visionben a kép- és szövegvektor-beágyazások 1024 dimenzióval rendelkeznek.

Fontos

A vektoros beágyazások csak akkor hasonlíthatók össze és illeszthetők össze, ha azonos modelltípusból származnak. Az egyik modell által vektorizált képek nem kereshetők egy másik modellen keresztül. A legújabb Image Analysis API két modellt kínál, 2023-04-15 amelyek számos nyelven támogatják a szöveges keresést, és az örökölt 2022-04-11 modellt, amely csak az angol nyelvet támogatja.

Hogyan működik?

A képlekérési folyamat fő lépései a multimodális beágyazások használatával.

A multimodális beágyazási/képlekérési folyamat ábrája.

  1. Képek és szöveg vektorizálása: a Multimodal embeddings API-k, VectorizeImage és VectorizeText funkcióvektorok kinyerésére használhatók képből vagy szövegből. Az API-k egyetlen funkcióvektort ad vissza, amely a teljes bemenetet jelöli.

    Feljegyzés

    A multimodális beágyazás nem végez emberi arcok biometrikus feldolgozását. Az arcfelismeréssel és -azonosítással kapcsolatban tekintse meg az Azure AI Face szolgáltatást.

  2. Mérték hasonlósága: A vektorkeresési rendszerek általában távolságmetrikákat használnak, például koszinusz- vagy euklideszi távolságokat a vektorok összehasonlításához és a hasonlóság alapján történő rangsorolásukhoz. A Vision studio bemutatója a hasonlóság méréséhez koszinuszos távolságot használ.
  3. Képek lekérése: Használja a keresési lekérdezéshez hasonló felső N vektorokat, és kérje le a képtárból az adott vektoroknak megfelelő képeket, hogy a végeredményt adja meg.

Relevancia pontszáma

A képlekérési szolgáltatás egy "relevancia" nevű mezőt ad vissza. A "relevancia" kifejezés a lekérdezések és a képbeágyazások közötti hasonlóság mértékét jelöli. A relevanciapont két részből áll:

  1. A koszinusz hasonlósága (amely a [0,1] tartományba esik) a lekérdezés és a képbeágyazások között.
  2. Metaadat-pontszám, amely tükrözi a lekérdezés és a képhez társított metaadatok közötti hasonlóságot.

Fontos

A relevanciapont jó mérték az eredmények, például a képek egyetlen lekérdezéshez való rangsorolásához. A relevancia pontszáma azonban nem hasonlítható össze pontosan a lekérdezések között. Ezért a relevanciapontot nem lehet könnyen megbízhatósági szintre képezni. Az sem lehetséges, hogy triviálisan hozzon létre egy küszöbérték-algoritmust, amely kiküszöböli az irreleváns eredményeket kizárólag a relevancia pontszáma alapján.

Bemeneti követelmények

Képbemenet

  • A kép fájlmérete nem érheti el a 20 megabájtot (MB)
  • A kép méretének 10 x 10 képpontnál nagyobbnak és 16 000 x 16 000 képpontnál kisebbnek kell lennie

Szövegbevitel

  • A szöveges sztringnek (beleértve) egy szó és 70 szó között kell lennie.

Következő lépések

Engedélyezze a multimodális beágyazásokat a keresési szolgáltatáshoz, és kövesse a lépéseket a szöveghez és képekhez készült vektoros beágyazások létrehozásához.