Rövid útmutató: Szöveg és képek vektorizálása az Azure Portal használatával
Ez a rövid útmutató segítséget nyújt az integrált vektorizálás használatbavételéhez az Adatok importálása és vektorizálása varázslóval az Azure Portalon. A varázsló elcsomagolja a tartalmat, és meghív egy beágyazási modellt, amely vektorizálja a tartalmat az indexelés és a lekérdezések során.
Előfeltételek
Azure-előfizetés. Hozzon létre egyet ingyen.
Egy Azure AI Search szolgáltatás ugyanabban a régióban, mint az Azure AI. Az alapszintű vagy magasabb szintet javasoljuk.
Támogatott adatforrás az állapotterv PDF-mintadokumentumaival .
A varázsló ismerete. További részletekért tekintse meg az Adatimportálás varázslókat az Azure Portalon .
Támogatott adatforrások
Az Adatok importálása és vektorizálása varázsló számos Azure-adatforrást támogat, de ez a rövid útmutató csak azokat az adatforrásokat ismerteti, amelyek teljes fájlokkal működnek:
Azure Blob Storage blobokhoz és táblákhoz. Az Azure Storage-nak standard teljesítményű (általános célú v2) fióknak kell lennie. A hozzáférési szintek lehetnek gyakori, ritka és hideg.
Azure Data Lake Storage (ADLS) Gen2 (egy hierarchikus névtérrel rendelkező Azure Storage-fiók). Az Áttekintés lapon a Tulajdonságok lapon ellenőrizheti, hogy rendelkezik-e Data Lake Storage-tal.
Támogatott beágyazási modellek
Beágyazási modellt használjon egy Azure AI-platformon, ugyanabban a régióban, mint az Azure AI Search. Az üzembehelyezési utasítások ebben a cikkben találhatók.
Szolgáltató | Támogatott modellek |
---|---|
Azure OpenAI szolgáltatás | text-embedding-ada-002 text-embedding-3-large text-embedding-3-small |
Azure AI Foundry-modellkatalógus | Szöveg esetén: Cohere-embed-v3-english Cohere-embed-v3-többnyelvű Képek esetén: Facebook-DinoV2-Image-Embeddings-ViT-Base Facebook-DinoV2-Image-Embeddings-ViT-Giant |
Azure AI-szolgáltatások többszolgáltatásos fiókja | Az Azure AI Vision multimodális kép- és szövegvektorizáláshoz, a kijelölt régiókban érhető el. A többszolgáltatásos erőforrás csatolásától függően előfordulhat, hogy a többszolgáltatásos fióknak ugyanabban a régióban kell lennie, mint az Azure AI Search. |
Ha az Azure OpenAI szolgáltatást használja, a végpontnak társított egyéni altartománysal kell rendelkeznie. Az egyéni altartományok olyan végpontok, amelyek egyedi nevet (például https://hereismyuniquename.cognitiveservices.azure.com
) tartalmaznak. Ha a szolgáltatás az Azure Portalon lett létrehozva, a rendszer automatikusan létrehozza ezt az altartományt a szolgáltatásbeállítás részeként. Az Azure AI Search-integrációval való használat előtt győződjön meg arról, hogy a szolgáltatás tartalmaz egy egyéni altartományt.
Az Azure AI Foundry portálon létrehozott Azure OpenAI-szolgáltatások erőforrásai (a beágyazási modellekhez való hozzáféréssel) nem támogatottak. Csak az Azure Portalon létrehozott Azure OpenAI-szolgáltatáserőforrások kompatibilisek az Azure OpenAI beágyazási képességintegrációjával .
Nyilvános végpontra vonatkozó követelmények
Ennek a rövid útmutatónak az alkalmazásában az összes előző erőforrásnak engedélyeznie kell a nyilvános hozzáférést, hogy az Azure Portal csomópontjai hozzáférhessenek hozzájuk. Ellenkező esetben a varázsló meghiúsul. A varázsló futtatása után engedélyezheti a tűzfalakat és a privát végpontokat az integrációs összetevőkön a biztonság érdekében. További információ: Biztonságos kapcsolatok az importálási varázslókban.
Ha már vannak privát végpontok, és nem tudja letiltani őket, a másik lehetőség a megfelelő végpontok közötti folyamat futtatása szkriptből vagy programból egy virtuális gépen. A virtuális gépnek ugyanazon a virtuális hálózaton kell lennie, mint a privát végpontnak. Íme egy Python-kódminta az integrált vektorizáláshoz. Ugyanez a GitHub-adattár más programozási nyelveken is rendelkezik mintákkal.
Engedélyek
Kulcshitelesítést és teljes hozzáférésű kapcsolati sztring, vagy szerepkör-hozzárendelésekkel rendelkező Microsoft Entra-azonosítót használhat. Javasoljuk, hogy szerepkör-hozzárendeléseket biztosítsunk a keresési szolgáltatás más erőforrásokhoz való kapcsolataihoz.
Az Azure AI Searchben engedélyezze a szerepköröket.
Konfigurálja a keresési szolgáltatást felügyelt identitás használatára.
Az adatforrásplatformon és a modellszolgáltató beágyazásával olyan szerepkör-hozzárendeléseket hozhat létre, amelyek lehetővé teszik a keresési szolgáltatás számára az adatok és modellek elérését. A mintaadatok előkészítése útmutatást nyújt a szerepkörök beállításához minden támogatott adatforráshoz.
Az ingyenes keresési szolgáltatás támogatja az Azure AI Search szerepköralapú kapcsolatait, de nem támogatja a felügyelt identitásokat az Azure Storage vagy az Azure AI Vision felé irányuló kimenő kapcsolatokon. Ez a támogatási szint azt jelenti, hogy kulcsalapú hitelesítést kell használnia az ingyenes keresési szolgáltatás és más Azure-szolgáltatások közötti kapcsolatokon.
Biztonságosabb kapcsolatokért:
- Használja az alapszintű vagy magasabb szintet.
- Konfiguráljon egy felügyelt identitást , és használjon szerepköröket az engedélyezett hozzáféréshez.
Feljegyzés
Ha nem tudja végighaladni a varázslón, mert a beállítások nem érhetők el (például nem választhat adatforrást vagy beágyazási modellt), próbálkozzon újra a szerepkör-hozzárendelésekkel. A hibaüzenetek azt jelzik, hogy a modellek vagy az üzemelő példányok nem léteznek, ha valójában a valódi ok az, hogy a keresőszolgáltatás nem rendelkezik hozzáféréssel azokhoz.
Szabad terület ellenőrzése
Ha az ingyenes szolgáltatással kezd, három indexre, adatforrásra, képességkészletre és indexelőre korlátozódik. Az alapszintű korlát 15. Mielőtt hozzákezdene, ellenőrizze, hogy elegendő hellyel rendelkezik-e további elemek számára. Ez a rövid útmutató minden objektum egyikét hozza létre.
Mintaadatok előkészítése
Ez a szakasz az ehhez a rövid útmutatóhoz használható tartalomra mutat.
Jelentkezzen be az Azure Portalra az Azure-fiókjával, és lépjen az Azure Storage-fiókjába.
A bal oldali panel Adattároló területén válassza a Tárolók lehetőséget.
Hozzon létre egy új tárolót, majd töltse fel a rövid útmutatóhoz használt állapotterv PDF-dokumentumait .
A bal oldali panel Hozzáférés-vezérlés területén rendelje hozzá a Storage Blob Data Reader szerepkört a keresési szolgáltatás identitásához. Vagy szerezze be a tárfiókhoz tartozó kapcsolati sztring az Access-kulcsok oldaláról.
Ha szeretné, szinkronizálja a tárolóban lévő törléseket a keresési indexben lévő törlésekkel. Az alábbi következő lépésekkel konfigurálhatja az indexelőt a törlés észleléséhez:
Engedélyezze a helyreállítható törlést a tárfiókban.
Ha natív helyreállítható törlést használ, nincs szükség további lépésekre az Azure Storage-ban.
Ellenkező esetben adjon hozzá egyéni metaadatokat, amelyeket az indexelő megvizsgálhat annak megállapításához, hogy mely blobok legyenek megjelölve törlésre. Adjon egy leíró nevet az egyéni tulajdonságnak. Elnevezheti például az "IsDeleted" tulajdonságot hamis értékre. Tegye ezt a tárolóban lévő összes blobhoz. Később, amikor törölni szeretné a blobot, módosítsa a tulajdonságot igaz értékre. További információ: Észlelés módosítása és törlése az Azure Storage-ból történő indexeléskor
Beágyazási modellek beállítása
A varázsló az Azure OpenAI-ból, az Azure AI Visionből vagy az Azure AI Foundry portál modellkatalógusából üzembe helyezett beágyazási modelleket használhat.
A varázsló támogatja a text-embedding-ada-002, a text-embedding-3-large és a text-embedding-3-small elemet. A varázsló belsőleg meghívja az AzureOpenAIEmbedding készséget az Azure OpenAI-hoz való csatlakozáshoz.
Jelentkezzen be az Azure Portalra az Azure-fiókjával, és nyissa meg az Azure OpenAI-erőforrást.
Engedélyek beállítása:
A bal oldali menüben válassza a Hozzáférés-vezérlés lehetőséget.
Válassza a Hozzáadás, majd a Szerepkör-hozzárendelés hozzáadása lehetőséget.
A Feladat függvényszerepkörök csoportban válassza a Cognitive Services OpenAI-felhasználó, majd a Tovább lehetőséget.
A Tagok területen válassza a Felügyelt identitás, majd a Tagok lehetőséget.
Szűrjön előfizetés és erőforrástípus (keresési szolgáltatások) szerint, majd válassza ki a keresési szolgáltatás felügyelt identitását.
Válassza az Áttekintés + hozzárendelés lehetőséget.
Az Áttekintés lapon kattintson ide a végpontok megtekintéséhez, vagy kattintson ide a kulcsok kezeléséhez, ha végpontot vagy API-kulcsot szeretne másolni. Ezeket az értékeket beillesztheti a varázslóba, ha azure OpenAI-erőforrást használ kulcsalapú hitelesítéssel.
Az Azure AI Foundry megnyitásához válassza a Központi telepítések kezelése lehetőséget az Erőforrás-kezelés és a Modell telepítése csoportban.
Másolja ki a telepítési nevet
text-embedding-ada-002
vagy egy másik támogatott beágyazási modellt. Ha nem rendelkezik beágyazási modellel, helyezzen üzembe egyet.
A varázsló indítása
Jelentkezzen be az Azure Portalra az Azure-fiókjával, és lépjen az Azure AI-Search szolgáltatás.
Az Áttekintés lapon válassza az Adatok importálása és vektorizálása lehetőséget.
Csatlakozás az adatokhoz
A következő lépés a keresési indexhez használni kívánt adatforráshoz való csatlakozás.
Az adatokhoz való csatlakozáshoz válassza az Azure Blob Storage lehetőséget.
Adja meg az Azure-előfizetést.
Válassza ki az adatokat tartalmazó tárfiókot és tárolót.
Adja meg, hogy támogatni szeretné-e a törlésészlelést . A későbbi indexelési futtatások során a keresési index frissül, hogy eltávolítson minden olyan keresési dokumentumot, amely az Azure Storage helyreállíthatóan törölt blobjai alapján történik.
- A blobok támogatják a natív blobok helyreállítható törlését vagy a helyreállítható törlést egyéni adatokkal.
- Korábban engedélyeznie kell a helyreállítható törlést az Azure Storage-ban, és opcionálisan olyan egyéni metaadatokat kell hozzáadnia , amelyeket az indexelés felismerhet törlési jelzőként. További információ ezekről a lépésekről: Mintaadatok előkészítése.
- Ha egyéni adatokkal konfigurálta a blobokat helyreállítható törlésre, ebben a lépésben adja meg a metaadat-tulajdonság név-érték párját. Az "IsDeleted" parancsot javasoljuk. Ha az "IsDeleted" értéke igaz egy blobon, az indexelő a következő indexelő futtatásakor elveti a megfelelő keresési dokumentumot.
A varázsló nem ellenőrzi az Azure Storage érvényes beállításait, vagy hibát jelez, ha a követelmények nem teljesülnek. Ehelyett a törlésészlelés nem működik, és a keresési index valószínűleg idővel árva dokumentumokat gyűjt.
Adja meg, hogy szeretné-e, hogy a keresési szolgáltatás a felügyelt identitásával csatlakozzon az Azure Storage-hoz.
- A rendszer arra kéri, hogy válasszon egy rendszer által felügyelt vagy felhasználó által felügyelt identitást.
- Az identitásnak rendelkeznie kell egy Storage Blob-adatolvasó szerepkörrel az Azure Storage-ban.
- Ne hagyja ki ezt a lépést. Kapcsolati hiba történik az indexelés során, ha a varázsló nem tud csatlakozni az Azure Storage-hoz.
Válassza a Tovább lehetőséget.
A szöveg vektorizálása
Ebben a lépésben adja meg az adattömbbe ágyazott adatok vektorizálására szolgáló beágyazási modellt.
Az adattömb beépített és nem konfigurálható. A hatályos beállítások a következők:
"textSplitMode": "pages",
"maximumPageLength": 2000,
"pageOverlapLength": 500,
"maximumPagesToTake": 0, #unlimited
"unit": "characters"
A szöveg vektorizálása lapon válassza ki a beágyazási modell forrását:
- Azure OpenAI
- Azure AI Foundry-modellkatalógus
- Egy meglévő Azure AI Vision multimodális erőforrás ugyanabban a régióban, mint az Azure AI Search. Ha ugyanabban a régióban nincs többszolgáltatásos Azure AI Services-fiók , ez a lehetőség nem érhető el.
Válassza ki az Azure-előfizetést.
Válasszon az erőforrásnak megfelelően:
Az Azure OpenAI esetében válassza a text-embedding-ada-002, a text-embedding-3-large vagy a text-embedding-3-small meglévő üzembe helyezését.
Az Azure AI Foundry katalógusában válasszon egy Azure- vagy Cohere-beágyazási modell meglévő üzembe helyezését.
Az AI Vision multimodális beágyazások esetében válassza ki a fiókot.
További információ: Beágyazási modellek beállítása a cikk korábbi részében.
Adja meg, hogy a keresési szolgáltatás API-kulccsal vagy felügyelt identitással szeretne-e hitelesíteni.
- Az identitásnak Cognitive Services-felhasználói szerepkörrel kell rendelkeznie az Azure AI többszolgáltatásos fiókjában.
Jelölje be az erőforrások használatának számlázási hatásait nyugtázó jelölőnégyzetet.
Válassza a Tovább lehetőséget.
Képek vektorizálása és bővítése
Az állapotterv PDF-fájljai tartalmazzák a vállalati emblémát, de máskülönben nincsenek képek. Ezt a lépést kihagyhatja, ha a mintadokumentumokat használja.
Ha azonban hasznos képeket tartalmazó tartalommal dolgozik, a mesterséges intelligenciát kétféleképpen alkalmazhatja:
Használjon támogatott képbeágyazási modellt a katalógusból, vagy válassza az Azure AI Vision multimodális beágyazási API-t a képek vektorizálásához.
Optikai karakterfelismerés (OCR) használata a képek szövegének felismeréséhez. Ez a beállítás meghívja az OCR-képességet a képek szövegének olvasásához.
Az Azure AI Searchnek és az Azure AI-erőforrásnak ugyanabban a régióban kell lennie, vagy kulcs nélküli számlázási kapcsolatokhoz kell konfigurálnia.
A Képek vektorizálása lapon adja meg, hogy milyen típusú kapcsolatot kell létesítenie a varázslónak. A képvektorizáláshoz a varázsló csatlakozhat beágyazási modellekhez az Azure AI Foundry portálon vagy az Azure AI Visionben.
Adja meg az előfizetést.
Az Azure AI Foundry modellkatalógusában adja meg a projektet és az üzembe helyezést. További információ: Beágyazási modellek beállítása a cikk korábbi részében.
Igény szerint feltörheti a bináris képeket (például beolvasott dokumentumfájlokat), és az OCR használatával felismerheti a szöveget.
Jelölje be az erőforrások használatának számlázási hatásait nyugtázó jelölőnégyzetet.
Válassza a Tovább lehetőséget.
Szemantikai rangsorolás hozzáadása
A Speciális beállítások lapon lehetőség van szemantikai rangsorolás hozzáadására, hogy a lekérdezés végrehajtásának végén újraküldje az eredményeket. A reranking előlépteti a szemantikai szempontból legrelevánsabb találatokat.
Új mezők leképezése
A lépés főbb pontjai:
- Az indexséma vektoros és nem adatmegjelenítő mezőket biztosít az adattömbhöz.
- Felvehet mezőket, de nem törölheti vagy módosíthatja a létrehozott mezőket.
- A dokumentumelemzési mód adattömböket hoz létre (darabszámonként egy keresési dokumentumot).
A Speciális beállítások lapon igény szerint új mezőket is hozzáadhat, feltéve, hogy az adatforrás metaadatokat vagy mezőket biztosít, amelyeket az első lépésben nem vett fel. A varázsló alapértelmezés szerint a következő mezőket hozza létre az alábbi attribútumokkal:
Mező | A következőre érvényes: | Leírás |
---|---|---|
chunk_id | Szöveg- és képvektorok | Létrehozott sztringmező. Kereshető, lekért, rendezhető. Ez az index dokumentumkulcsa. |
text_parent_id | Szövegvektorok | Létrehozott sztringmező. Lekérdezhető, szűrhető. Azonosítja azt a szülődokumentumot, amelyből az adattömb származik. |
darab | Szöveg- és képvektorok | Sztringmező. Az adattömb emberi olvasható verziója. Kereshető és lekért, de nem szűrhető, facetable vagy rendezhető. |
cím | Szöveg- és képvektorok | Sztringmező. Emberi olvasható dokumentum címe, oldal címe vagy oldalszáma. Kereshető és lekért, de nem szűrhető, facetable vagy rendezhető. |
text_vector | Szövegvektorok | Collection(Edm.single). Az adattömb vektoros ábrázolása. Kereshető és lekért, de nem szűrhető, facetable vagy rendezhető. |
A létrehozott mezőket és attribútumaikat nem módosíthatja, de új mezőket is hozzáadhat, ha az adatforrás biztosítja őket. Az Azure Blob Storage például metaadatmezők gyűjteményét biztosítja.
Válassza az Új hozzáadása lehetőséget.
Válasszon egy forrásmezőt az elérhető mezők listájából, adja meg az index mezőnevét, és szükség szerint fogadja el az alapértelmezett adattípust vagy felülbírálást.
A metaadatok mezői kereshetők, de nem olvashatók le, szűrhetők, táblázatosak vagy rendezhetők.
Válassza az Alaphelyzetbe állítás lehetőséget, ha vissza szeretné állítani a sémát az eredeti verzióra.
Indexelés ütemezése
A Speciális beállítások lapon megadhatja az indexelő futási ütemezését.
- Ha végzett a Speciális beállítások lapon, válassza a Tovább gombot.
A varázsló befejezése
A konfiguráció áttekintése lapon adja meg a varázsló által létrehozott objektumok előtagját. Egy gyakori előtag segít a rendszerezésben.
Válassza a Létrehozás lehetőséget.
Amikor a varázsló befejezi a konfigurációt, a következő objektumokat hozza létre:
Adatforrás-kapcsolat.
Vektormezőkkel, vektorosítókkal, vektorprofilokkal és vektoralgoritmusokkal rendelkező index. A varázsló munkafolyamata során nem lehet megtervezni vagy módosítani az alapértelmezett indexet. Az indexek megfelelnek a 2024-05-01-preview REST API-nak.
A szöveg felosztási képességével és a vektorizálás beágyazási képességével. A beágyazási képesség vagy az Azure OpenAI AzureOpenAIEmbeddingModel-készsége , vagy az Azure AI Foundry-modellkatalógus AML-képessége . A képességkészlet rendelkezik az indexprojekciók konfigurációjával is, amely lehetővé teszi, hogy az adatok leképezhetők legyenek az adatforrás egyik dokumentumából a megfelelő adattömbökre egy "gyermek" indexben.
Indexelő mezőleképezésekkel és kimeneti mezőleképezésekkel (ha van).
Eredmények ellenőrzése
A Search Explorer szövegsztringeket fogad bemenetként, majd vektorizálja a szöveget a vektoros lekérdezés végrehajtásához.
Az Azure Portalon nyissa meg a Kereséskezelési>indexeket, majd válassza ki a létrehozott indexet.
Válassza a Lekérdezési beállítások lehetőséget , és rejtse el a vektorértékeket a keresési eredmények között. Ez a lépés megkönnyíti a keresési eredmények olvasását.
A Nézet menüben válassza a JSON-nézetet, hogy a vektoros lekérdezés szövegét be tudja írni a
text
vektoros lekérdezés paraméterébe.Az alapértelmezett lekérdezés egy üres keresés (
"*"
), de a szám egyezések visszaadására szolgáló paramétereket is tartalmaz. Ez egy hibrid lekérdezés, amely szöveges és vektoros lekérdezéseket futtat párhuzamosan. Ez magában foglalja a szemantikai rangsorolást. Meghatározza, hogy mely mezőket kell visszaadni az eredményekben azselect
utasításon keresztül.{ "search": "*", "count": true, "vectorQueries": [ { "kind": "text", "text": "*", "fields": "text_vector,image_vector" } ], "queryType": "semantic", "semanticConfiguration": "my-demo-semantic-configuration", "captions": "extractive", "answers": "extractive|count-3", "queryLanguage": "en-us", "select": "chunk_id,text_parent_id,chunk,title,image_parent_id" }
Cserélje le mindkét csillag (
*
) helyőrzőt az állapottervekkel kapcsolatos kérdésre, példáulWhich plan has the lowest deductible?
.{ "search": "Which plan has the lowest deductible?", "count": true, "vectorQueries": [ { "kind": "text", "text": "Which plan has the lowest deductible?", "fields": "text_vector,image_vector" } ], "queryType": "semantic", "semanticConfiguration": "my-demo-semantic-configuration", "captions": "extractive", "answers": "extractive|count-3", "queryLanguage": "en-us", "select": "chunk_id,text_parent_id,chunk,title" }
A lekérdezés futtatásához válassza a Keresés lehetőséget .
Minden dokumentum az eredeti PDF-fájl egy-egy darabja. A
title
mezőben látható, hogy az adattömb melyik PDF-fájlból származik. Mindegyikchunk
elég hosszú. A teljes érték olvasásához másolhat és beilleszthet egyet egy szövegszerkesztőbe.Egy adott dokumentum összes adattömbjének megtekintéséhez adjon hozzá egy szűrőt egy
title_parent_id
adott PDF-fájl mezőihez. Az index Mezők lapján ellenőrizheti, hogy ez a mező szűrhető-e.{ "select": "chunk_id,text_parent_id,chunk,title", "filter": "text_parent_id eq 'aHR0cHM6Ly9oZWlkaXN0c3RvcmFnZWRlbW9lYXN0dXMuYmxvYi5jb3JlLndpbmRvd3MubmV0L2hlYWx0aC1wbGFuLXBkZnMvTm9ydGh3aW5kX1N0YW5kYXJkX0JlbmVmaXRzX0RldGFpbHMucGRm0'", "count": true, "vectorQueries": [ { "kind": "text", "text": "*", "k": 5, "fields": "text_vector" } ] }
A fölöslegessé vált elemek eltávolítása
Az Azure AI Search egy számlázható erőforrás. Ha már nincs rá szüksége, törölje az előfizetésből a díjak elkerülése érdekében.
Következő lépés
Ez a rövid útmutató bemutatta az Adatok importálása és vektorizálása varázslót, amely létrehozza az összes szükséges objektumot az integrált vektorizáláshoz. Ha részletesen szeretné megismerni az egyes lépéseket, próbáljon ki egy integrált vektorizálási mintát.