Megosztás a következőn keresztül:


Rövid útmutató: Szöveg és képek vektorizálása az Azure Portal használatával

Ez a rövid útmutató segítséget nyújt az integrált vektorizálás használatbavételéhez az Adatok importálása és vektorizálása varázslóval az Azure Portalon. A varázsló elcsomagolja a tartalmat, és meghív egy beágyazási modellt, amely vektorizálja a tartalmat az indexelés és a lekérdezések során.

Előfeltételek

Támogatott adatforrások

Az Adatok importálása és vektorizálása varázsló számos Azure-adatforrást támogat, de ez a rövid útmutató csak azokat az adatforrásokat ismerteti, amelyek teljes fájlokkal működnek:

Támogatott beágyazási modellek

Beágyazási modellt használjon egy Azure AI-platformon, ugyanabban a régióban, mint az Azure AI Search. Az üzembehelyezési utasítások ebben a cikkben találhatók.

Szolgáltató Támogatott modellek
Azure OpenAI szolgáltatás text-embedding-ada-002
text-embedding-3-large
text-embedding-3-small
Azure AI Foundry-modellkatalógus Szöveg esetén:
Cohere-embed-v3-english
Cohere-embed-v3-többnyelvű
Képek esetén:
Facebook-DinoV2-Image-Embeddings-ViT-Base
Facebook-DinoV2-Image-Embeddings-ViT-Giant
Azure AI-szolgáltatások többszolgáltatásos fiókja Az Azure AI Vision multimodális kép- és szövegvektorizáláshoz, a kijelölt régiókban érhető el. A többszolgáltatásos erőforrás csatolásától függően előfordulhat, hogy a többszolgáltatásos fióknak ugyanabban a régióban kell lennie, mint az Azure AI Search.

Ha az Azure OpenAI szolgáltatást használja, a végpontnak társított egyéni altartománysal kell rendelkeznie. Az egyéni altartományok olyan végpontok, amelyek egyedi nevet (például https://hereismyuniquename.cognitiveservices.azure.com) tartalmaznak. Ha a szolgáltatás az Azure Portalon lett létrehozva, a rendszer automatikusan létrehozza ezt az altartományt a szolgáltatásbeállítás részeként. Az Azure AI Search-integrációval való használat előtt győződjön meg arról, hogy a szolgáltatás tartalmaz egy egyéni altartományt.

Az Azure AI Foundry portálon létrehozott Azure OpenAI-szolgáltatások erőforrásai (a beágyazási modellekhez való hozzáféréssel) nem támogatottak. Csak az Azure Portalon létrehozott Azure OpenAI-szolgáltatáserőforrások kompatibilisek az Azure OpenAI beágyazási képességintegrációjával .

Nyilvános végpontra vonatkozó követelmények

Ennek a rövid útmutatónak az alkalmazásában az összes előző erőforrásnak engedélyeznie kell a nyilvános hozzáférést, hogy az Azure Portal csomópontjai hozzáférhessenek hozzájuk. Ellenkező esetben a varázsló meghiúsul. A varázsló futtatása után engedélyezheti a tűzfalakat és a privát végpontokat az integrációs összetevőkön a biztonság érdekében. További információ: Biztonságos kapcsolatok az importálási varázslókban.

Ha már vannak privát végpontok, és nem tudja letiltani őket, a másik lehetőség a megfelelő végpontok közötti folyamat futtatása szkriptből vagy programból egy virtuális gépen. A virtuális gépnek ugyanazon a virtuális hálózaton kell lennie, mint a privát végpontnak. Íme egy Python-kódminta az integrált vektorizáláshoz. Ugyanez a GitHub-adattár más programozási nyelveken is rendelkezik mintákkal.

Engedélyek

Kulcshitelesítést és teljes hozzáférésű kapcsolati sztring, vagy szerepkör-hozzárendelésekkel rendelkező Microsoft Entra-azonosítót használhat. Javasoljuk, hogy szerepkör-hozzárendeléseket biztosítsunk a keresési szolgáltatás más erőforrásokhoz való kapcsolataihoz.

  1. Az Azure AI Searchben engedélyezze a szerepköröket.

  2. Konfigurálja a keresési szolgáltatást felügyelt identitás használatára.

  3. Az adatforrásplatformon és a modellszolgáltató beágyazásával olyan szerepkör-hozzárendeléseket hozhat létre, amelyek lehetővé teszik a keresési szolgáltatás számára az adatok és modellek elérését. A mintaadatok előkészítése útmutatást nyújt a szerepkörök beállításához minden támogatott adatforráshoz.

Az ingyenes keresési szolgáltatás támogatja az Azure AI Search szerepköralapú kapcsolatait, de nem támogatja a felügyelt identitásokat az Azure Storage vagy az Azure AI Vision felé irányuló kimenő kapcsolatokon. Ez a támogatási szint azt jelenti, hogy kulcsalapú hitelesítést kell használnia az ingyenes keresési szolgáltatás és más Azure-szolgáltatások közötti kapcsolatokon.

Biztonságosabb kapcsolatokért:

Feljegyzés

Ha nem tudja végighaladni a varázslón, mert a beállítások nem érhetők el (például nem választhat adatforrást vagy beágyazási modellt), próbálkozzon újra a szerepkör-hozzárendelésekkel. A hibaüzenetek azt jelzik, hogy a modellek vagy az üzemelő példányok nem léteznek, ha valójában a valódi ok az, hogy a keresőszolgáltatás nem rendelkezik hozzáféréssel azokhoz.

Szabad terület ellenőrzése

Ha az ingyenes szolgáltatással kezd, három indexre, adatforrásra, képességkészletre és indexelőre korlátozódik. Az alapszintű korlát 15. Mielőtt hozzákezdene, ellenőrizze, hogy elegendő hellyel rendelkezik-e további elemek számára. Ez a rövid útmutató minden objektum egyikét hozza létre.

Mintaadatok előkészítése

Ez a szakasz az ehhez a rövid útmutatóhoz használható tartalomra mutat.

  1. Jelentkezzen be az Azure Portalra az Azure-fiókjával, és lépjen az Azure Storage-fiókjába.

  2. A bal oldali panel Adattároló területén válassza a Tárolók lehetőséget.

  3. Hozzon létre egy új tárolót, majd töltse fel a rövid útmutatóhoz használt állapotterv PDF-dokumentumait .

  4. A bal oldali panel Hozzáférés-vezérlés területén rendelje hozzá a Storage Blob Data Reader szerepkört a keresési szolgáltatás identitásához. Vagy szerezze be a tárfiókhoz tartozó kapcsolati sztring az Access-kulcsok oldaláról.

  5. Ha szeretné, szinkronizálja a tárolóban lévő törléseket a keresési indexben lévő törlésekkel. Az alábbi következő lépésekkel konfigurálhatja az indexelőt a törlés észleléséhez:

    1. Engedélyezze a helyreállítható törlést a tárfiókban.

    2. Ha natív helyreállítható törlést használ, nincs szükség további lépésekre az Azure Storage-ban.

    3. Ellenkező esetben adjon hozzá egyéni metaadatokat, amelyeket az indexelő megvizsgálhat annak megállapításához, hogy mely blobok legyenek megjelölve törlésre. Adjon egy leíró nevet az egyéni tulajdonságnak. Elnevezheti például az "IsDeleted" tulajdonságot hamis értékre. Tegye ezt a tárolóban lévő összes blobhoz. Később, amikor törölni szeretné a blobot, módosítsa a tulajdonságot igaz értékre. További információ: Észlelés módosítása és törlése az Azure Storage-ból történő indexeléskor

Beágyazási modellek beállítása

A varázsló az Azure OpenAI-ból, az Azure AI Visionből vagy az Azure AI Foundry portál modellkatalógusából üzembe helyezett beágyazási modelleket használhat.

A varázsló támogatja a text-embedding-ada-002, a text-embedding-3-large és a text-embedding-3-small elemet. A varázsló belsőleg meghívja az AzureOpenAIEmbedding készséget az Azure OpenAI-hoz való csatlakozáshoz.

  1. Jelentkezzen be az Azure Portalra az Azure-fiókjával, és nyissa meg az Azure OpenAI-erőforrást.

  2. Engedélyek beállítása:

    1. A bal oldali menüben válassza a Hozzáférés-vezérlés lehetőséget.

    2. Válassza a Hozzáadás, majd a Szerepkör-hozzárendelés hozzáadása lehetőséget.

    3. A Feladat függvényszerepkörök csoportban válassza a Cognitive Services OpenAI-felhasználó, majd a Tovább lehetőséget.

    4. A Tagok területen válassza a Felügyelt identitás, majd a Tagok lehetőséget.

    5. Szűrjön előfizetés és erőforrástípus (keresési szolgáltatások) szerint, majd válassza ki a keresési szolgáltatás felügyelt identitását.

    6. Válassza az Áttekintés + hozzárendelés lehetőséget.

  3. Az Áttekintés lapon kattintson ide a végpontok megtekintéséhez, vagy kattintson ide a kulcsok kezeléséhez, ha végpontot vagy API-kulcsot szeretne másolni. Ezeket az értékeket beillesztheti a varázslóba, ha azure OpenAI-erőforrást használ kulcsalapú hitelesítéssel.

  4. Az Azure AI Foundry megnyitásához válassza a Központi telepítések kezelése lehetőséget az Erőforrás-kezelés és a Modell telepítése csoportban.

  5. Másolja ki a telepítési nevet text-embedding-ada-002 vagy egy másik támogatott beágyazási modellt. Ha nem rendelkezik beágyazási modellel, helyezzen üzembe egyet.

A varázsló indítása

  1. Jelentkezzen be az Azure Portalra az Azure-fiókjával, és lépjen az Azure AI-Search szolgáltatás.

  2. Az Áttekintés lapon válassza az Adatok importálása és vektorizálása lehetőséget.

    Képernyőkép az adatok importálására és vektorizálására szolgáló varázsló megnyitására szolgáló parancsról.

Csatlakozás az adatokhoz

A következő lépés a keresési indexhez használni kívánt adatforráshoz való csatlakozás.

  1. Az adatokhoz való csatlakozáshoz válassza az Azure Blob Storage lehetőséget.

  2. Adja meg az Azure-előfizetést.

  3. Válassza ki az adatokat tartalmazó tárfiókot és tárolót.

  4. Adja meg, hogy támogatni szeretné-e a törlésészlelést . A későbbi indexelési futtatások során a keresési index frissül, hogy eltávolítson minden olyan keresési dokumentumot, amely az Azure Storage helyreállíthatóan törölt blobjai alapján történik.

    • A blobok támogatják a natív blobok helyreállítható törlését vagy a helyreállítható törlést egyéni adatokkal.
    • Korábban engedélyeznie kell a helyreállítható törlést az Azure Storage-ban, és opcionálisan olyan egyéni metaadatokat kell hozzáadnia , amelyeket az indexelés felismerhet törlési jelzőként. További információ ezekről a lépésekről: Mintaadatok előkészítése.
    • Ha egyéni adatokkal konfigurálta a blobokat helyreállítható törlésre, ebben a lépésben adja meg a metaadat-tulajdonság név-érték párját. Az "IsDeleted" parancsot javasoljuk. Ha az "IsDeleted" értéke igaz egy blobon, az indexelő a következő indexelő futtatásakor elveti a megfelelő keresési dokumentumot.

    A varázsló nem ellenőrzi az Azure Storage érvényes beállításait, vagy hibát jelez, ha a követelmények nem teljesülnek. Ehelyett a törlésészlelés nem működik, és a keresési index valószínűleg idővel árva dokumentumokat gyűjt.

    Képernyőkép az adatforráslapról törlésészlelési lehetőségekkel.

  5. Adja meg, hogy szeretné-e, hogy a keresési szolgáltatás a felügyelt identitásával csatlakozzon az Azure Storage-hoz.

    • A rendszer arra kéri, hogy válasszon egy rendszer által felügyelt vagy felhasználó által felügyelt identitást.
    • Az identitásnak rendelkeznie kell egy Storage Blob-adatolvasó szerepkörrel az Azure Storage-ban.
    • Ne hagyja ki ezt a lépést. Kapcsolati hiba történik az indexelés során, ha a varázsló nem tud csatlakozni az Azure Storage-hoz.
  6. Válassza a Tovább lehetőséget.

A szöveg vektorizálása

Ebben a lépésben adja meg az adattömbbe ágyazott adatok vektorizálására szolgáló beágyazási modellt.

Az adattömb beépített és nem konfigurálható. A hatályos beállítások a következők:

"textSplitMode": "pages",
"maximumPageLength": 2000,
"pageOverlapLength": 500,
"maximumPagesToTake": 0, #unlimited
"unit": "characters"
  1. A szöveg vektorizálása lapon válassza ki a beágyazási modell forrását:

    • Azure OpenAI
    • Azure AI Foundry-modellkatalógus
    • Egy meglévő Azure AI Vision multimodális erőforrás ugyanabban a régióban, mint az Azure AI Search. Ha ugyanabban a régióban nincs többszolgáltatásos Azure AI Services-fiók , ez a lehetőség nem érhető el.
  2. Válassza ki az Azure-előfizetést.

  3. Válasszon az erőforrásnak megfelelően:

    • Az Azure OpenAI esetében válassza a text-embedding-ada-002, a text-embedding-3-large vagy a text-embedding-3-small meglévő üzembe helyezését.

    • Az Azure AI Foundry katalógusában válasszon egy Azure- vagy Cohere-beágyazási modell meglévő üzembe helyezését.

    • Az AI Vision multimodális beágyazások esetében válassza ki a fiókot.

    További információ: Beágyazási modellek beállítása a cikk korábbi részében.

  4. Adja meg, hogy a keresési szolgáltatás API-kulccsal vagy felügyelt identitással szeretne-e hitelesíteni.

    • Az identitásnak Cognitive Services-felhasználói szerepkörrel kell rendelkeznie az Azure AI többszolgáltatásos fiókjában.
  5. Jelölje be az erőforrások használatának számlázási hatásait nyugtázó jelölőnégyzetet.

    Képernyőkép a varázsló szövegének vektorizálási oldaláról.

  6. Válassza a Tovább lehetőséget.

Képek vektorizálása és bővítése

Az állapotterv PDF-fájljai tartalmazzák a vállalati emblémát, de máskülönben nincsenek képek. Ezt a lépést kihagyhatja, ha a mintadokumentumokat használja.

Ha azonban hasznos képeket tartalmazó tartalommal dolgozik, a mesterséges intelligenciát kétféleképpen alkalmazhatja:

  • Használjon támogatott képbeágyazási modellt a katalógusból, vagy válassza az Azure AI Vision multimodális beágyazási API-t a képek vektorizálásához.

  • Optikai karakterfelismerés (OCR) használata a képek szövegének felismeréséhez. Ez a beállítás meghívja az OCR-képességet a képek szövegének olvasásához.

Az Azure AI Searchnek és az Azure AI-erőforrásnak ugyanabban a régióban kell lennie, vagy kulcs nélküli számlázási kapcsolatokhoz kell konfigurálnia.

  1. A Képek vektorizálása lapon adja meg, hogy milyen típusú kapcsolatot kell létesítenie a varázslónak. A képvektorizáláshoz a varázsló csatlakozhat beágyazási modellekhez az Azure AI Foundry portálon vagy az Azure AI Visionben.

  2. Adja meg az előfizetést.

  3. Az Azure AI Foundry modellkatalógusában adja meg a projektet és az üzembe helyezést. További információ: Beágyazási modellek beállítása a cikk korábbi részében.

  4. Igény szerint feltörheti a bináris képeket (például beolvasott dokumentumfájlokat), és az OCR használatával felismerheti a szöveget.

  5. Jelölje be az erőforrások használatának számlázási hatásait nyugtázó jelölőnégyzetet.

    Képernyőkép a vektorizálási képek lapjáról a varázslóban.

  6. Válassza a Tovább lehetőséget.

Szemantikai rangsorolás hozzáadása

A Speciális beállítások lapon lehetőség van szemantikai rangsorolás hozzáadására, hogy a lekérdezés végrehajtásának végén újraküldje az eredményeket. A reranking előlépteti a szemantikai szempontból legrelevánsabb találatokat.

Új mezők leképezése

A lépés főbb pontjai:

  • Az indexséma vektoros és nem adatmegjelenítő mezőket biztosít az adattömbhöz.
  • Felvehet mezőket, de nem törölheti vagy módosíthatja a létrehozott mezőket.
  • A dokumentumelemzési mód adattömböket hoz létre (darabszámonként egy keresési dokumentumot).

A Speciális beállítások lapon igény szerint új mezőket is hozzáadhat, feltéve, hogy az adatforrás metaadatokat vagy mezőket biztosít, amelyeket az első lépésben nem vett fel. A varázsló alapértelmezés szerint a következő mezőket hozza létre az alábbi attribútumokkal:

Mező A következőre érvényes: Leírás
chunk_id Szöveg- és képvektorok Létrehozott sztringmező. Kereshető, lekért, rendezhető. Ez az index dokumentumkulcsa.
text_parent_id Szövegvektorok Létrehozott sztringmező. Lekérdezhető, szűrhető. Azonosítja azt a szülődokumentumot, amelyből az adattömb származik.
darab Szöveg- és képvektorok Sztringmező. Az adattömb emberi olvasható verziója. Kereshető és lekért, de nem szűrhető, facetable vagy rendezhető.
cím Szöveg- és képvektorok Sztringmező. Emberi olvasható dokumentum címe, oldal címe vagy oldalszáma. Kereshető és lekért, de nem szűrhető, facetable vagy rendezhető.
text_vector Szövegvektorok Collection(Edm.single). Az adattömb vektoros ábrázolása. Kereshető és lekért, de nem szűrhető, facetable vagy rendezhető.

A létrehozott mezőket és attribútumaikat nem módosíthatja, de új mezőket is hozzáadhat, ha az adatforrás biztosítja őket. Az Azure Blob Storage például metaadatmezők gyűjteményét biztosítja.

  1. Válassza az Új hozzáadása lehetőséget.

  2. Válasszon egy forrásmezőt az elérhető mezők listájából, adja meg az index mezőnevét, és szükség szerint fogadja el az alapértelmezett adattípust vagy felülbírálást.

    A metaadatok mezői kereshetők, de nem olvashatók le, szűrhetők, táblázatosak vagy rendezhetők.

  3. Válassza az Alaphelyzetbe állítás lehetőséget, ha vissza szeretné állítani a sémát az eredeti verzióra.

Indexelés ütemezése

A Speciális beállítások lapon megadhatja az indexelő futási ütemezését.

  1. Ha végzett a Speciális beállítások lapon, válassza a Tovább gombot.

A varázsló befejezése

  1. A konfiguráció áttekintése lapon adja meg a varázsló által létrehozott objektumok előtagját. Egy gyakori előtag segít a rendszerezésben.

  2. Válassza a Létrehozás lehetőséget.

Amikor a varázsló befejezi a konfigurációt, a következő objektumokat hozza létre:

  • Adatforrás-kapcsolat.

  • Vektormezőkkel, vektorosítókkal, vektorprofilokkal és vektoralgoritmusokkal rendelkező index. A varázsló munkafolyamata során nem lehet megtervezni vagy módosítani az alapértelmezett indexet. Az indexek megfelelnek a 2024-05-01-preview REST API-nak.

  • A szöveg felosztási képességével és a vektorizálás beágyazási képességével. A beágyazási képesség vagy az Azure OpenAI AzureOpenAIEmbeddingModel-készsége , vagy az Azure AI Foundry-modellkatalógus AML-képessége . A képességkészlet rendelkezik az indexprojekciók konfigurációjával is, amely lehetővé teszi, hogy az adatok leképezhetők legyenek az adatforrás egyik dokumentumából a megfelelő adattömbökre egy "gyermek" indexben.

  • Indexelő mezőleképezésekkel és kimeneti mezőleképezésekkel (ha van).

Eredmények ellenőrzése

A Search Explorer szövegsztringeket fogad bemenetként, majd vektorizálja a szöveget a vektoros lekérdezés végrehajtásához.

  1. Az Azure Portalon nyissa meg a Kereséskezelési>indexeket, majd válassza ki a létrehozott indexet.

  2. Válassza a Lekérdezési beállítások lehetőséget , és rejtse el a vektorértékeket a keresési eredmények között. Ez a lépés megkönnyíti a keresési eredmények olvasását.

    Képernyőkép a lekérdezési beállítások gombról.

  3. A Nézet menüben válassza a JSON-nézetet, hogy a vektoros lekérdezés szövegét be tudja írni a text vektoros lekérdezés paraméterébe.

    Képernyőkép a JSON-nézet megnyitására szolgáló menüparancsról.

    Az alapértelmezett lekérdezés egy üres keresés ("*"), de a szám egyezések visszaadására szolgáló paramétereket is tartalmaz. Ez egy hibrid lekérdezés, amely szöveges és vektoros lekérdezéseket futtat párhuzamosan. Ez magában foglalja a szemantikai rangsorolást. Meghatározza, hogy mely mezőket kell visszaadni az eredményekben az select utasításon keresztül.

     {
       "search": "*",
       "count": true,
       "vectorQueries": [
         {
           "kind": "text",
           "text": "*",
           "fields": "text_vector,image_vector"
         }
       ],
       "queryType": "semantic",
       "semanticConfiguration": "my-demo-semantic-configuration",
       "captions": "extractive",
       "answers": "extractive|count-3",
       "queryLanguage": "en-us",
       "select": "chunk_id,text_parent_id,chunk,title,image_parent_id"
     }
    
  4. Cserélje le mindkét csillag (*) helyőrzőt az állapottervekkel kapcsolatos kérdésre, például Which plan has the lowest deductible?.

     {
       "search": "Which plan has the lowest deductible?",
       "count": true,
       "vectorQueries": [
         {
           "kind": "text",
           "text": "Which plan has the lowest deductible?",
           "fields": "text_vector,image_vector"
         }
       ],
       "queryType": "semantic",
       "semanticConfiguration": "my-demo-semantic-configuration",
       "captions": "extractive",
       "answers": "extractive|count-3",
       "queryLanguage": "en-us",
       "select": "chunk_id,text_parent_id,chunk,title"
     }
    
  5. A lekérdezés futtatásához válassza a Keresés lehetőséget .

    Képernyőkép a keresési eredményekről.

    Minden dokumentum az eredeti PDF-fájl egy-egy darabja. A title mezőben látható, hogy az adattömb melyik PDF-fájlból származik. Mindegyik chunk elég hosszú. A teljes érték olvasásához másolhat és beilleszthet egyet egy szövegszerkesztőbe.

  6. Egy adott dokumentum összes adattömbjének megtekintéséhez adjon hozzá egy szűrőt egy title_parent_id adott PDF-fájl mezőihez. Az index Mezők lapján ellenőrizheti, hogy ez a mező szűrhető-e.

    {
       "select": "chunk_id,text_parent_id,chunk,title",
       "filter": "text_parent_id eq 'aHR0cHM6Ly9oZWlkaXN0c3RvcmFnZWRlbW9lYXN0dXMuYmxvYi5jb3JlLndpbmRvd3MubmV0L2hlYWx0aC1wbGFuLXBkZnMvTm9ydGh3aW5kX1N0YW5kYXJkX0JlbmVmaXRzX0RldGFpbHMucGRm0'",
       "count": true,
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "text_vector"
           }
        ]
    }
    

A fölöslegessé vált elemek eltávolítása

Az Azure AI Search egy számlázható erőforrás. Ha már nincs rá szüksége, törölje az előfizetésből a díjak elkerülése érdekében.

Következő lépés

Ez a rövid útmutató bemutatta az Adatok importálása és vektorizálása varázslót, amely létrehozza az összes szükséges objektumot az integrált vektorizáláshoz. Ha részletesen szeretné megismerni az egyes lépéseket, próbáljon ki egy integrált vektorizálási mintát.