Rövid útmutató: Integrált vektorizáció (előzetes verzió)

Cikk
05/21/2024

Fontos

Az Adatok importálása és vektorizálása varázsló nyilvános előzetes verzióban érhető el a kiegészítő használati feltételek alatt. A 2024-05-01-preview REST API-t célozza meg.

Ismerkedés az integrált vektorizálással (előzetes verzió) az Adatok importálása és vektorizálása varázslóval az Azure Portalon. Ez a varázsló meghív egy Azure OpenAI-szövegbeágyazási modellt a tartalom vektorizálásához az indexelés és a lekérdezések során.

A varázsló ezen előzetes verziójában:

A forrásadatok vagy blobok az Azure Storage-ban, vagy fájlok a OneLake-ben az alapértelmezett elemzési mód használatával (blobonként vagy fájlonként egy keresési dokumentum).
Az indexséma nem konfigurálható. A forrásmezők közé tartozik content a cím metadata_storage_path és a dokumentumkulcs címe (darabolt és vektorizált), metadata_storage_name az Indexben látható módonparent_id.
A vektorizálás csak Az Azure OpenAI (text-embedding-ada-002) a hierarchikus navigálható kisvilágok (HNSW) algoritmust használja alapértelmezett értékekkel.
Az adattömb nem konfigurálható. A hatályos beállítások a következők:
```
textSplitMode: "pages",
maximumPageLength: 2000,
pageOverlapLength: 500
```

További konfigurációs és adatforrás-beállításokért próbálja ki a Pythont vagy a REST API-kat. Részletekért tekintse meg az integrált vektorizációs mintát .

Azure-előfizetés. Hozzon létre egyet ingyen.
Azure AI Search, bármely régióban és bármilyen szinten. A legtöbb meglévő szolgáltatás támogatja a vektorkeresést. A 2019. január előtt létrehozott szolgáltatások egy kis részhalmaza esetén a vektormezőket tartalmazó index létrehozása meghiúsul. Ebben az esetben létre kell hozni egy új szolgáltatást.
Azure OpenAI-végpont a text-embedding-ada-002 üzembe helyezésével, valamint egy API-kulccsal vagy Cognitive Services OpenAI felhasználói engedélyekkel az adatok feltöltéséhez. Ebben az előzetes verzióban csak egy vektorizálót választhat, és a vektorizálónak Azure OpenAI-nak kell lennie.
Azure Storage-fiók, standard teljesítmény (általános célú v2), gyakori, ritka elérésű és hideg hozzáférési szintek vagy OneLake.
Csak szöveges tartalmat, strukturálatlan dokumentumokat és metaadatokat tartalmazó blobok vagy fájlok.
Olvasási engedélyek az adatforráson. Az Azure Storage-hoz való csatlakozáshoz használhat kulcsokat vagy egy Storage Blob-adatolvasó szerepkör-hozzárendelést. A OneLake-hez való csatlakozáshoz a Közreműködő szerepkörrel kell csatlakoznia (nincs kulcshitelesítési támogatás).
Minden összetevőnek (adatforrásnak és beágyazási végpontnak) nyilvános hozzáféréssel kell rendelkeznie ahhoz, hogy a portálcsomópontok hozzáférhessenek hozzájuk. Ellenkező esetben a varázsló meghiúsul. A varázsló futtatása után a tűzfalak és a privát végpontok engedélyezhetők a különböző integrációs összetevőkben a biztonság érdekében. Ha a privát végpontok már léteznek, és nem tilthatók le, a másik lehetőség a megfelelő végpontok közötti folyamat futtatása szkriptből vagy programból egy virtuális gépről a privát végpontgal azonos virtuális hálózaton belül. Íme egy Python-kódminta az integrált vektorizáláshoz. Ugyanabban a GitHub-adattárban más programozási nyelvek mintái találhatók.

Szabad terület ellenőrzése

Sok ügyfél az ingyenes szolgáltatással kezdi. Az ingyenes szint három indexre, három adatforrásra, három képességkészletre és három indexelőre korlátozódik. Mielőtt hozzákezdene, ellenőrizze, hogy elegendő hellyel rendelkezik-e további elemek számára. Ez a rövid útmutató minden objektum egyikét hozza létre.

Szemantikai rangsorolás ellenőrzése

Ez a varázsló támogatja a szemantikai rangsorolást, de csak alapszintű és annál magasabb szinten, és csak akkor, ha a szemantikai rangsorolás már engedélyezve van a keresési szolgáltatásban. Ha számlázható szintet használ, ellenőrizze, hogy engedélyezve van-e a szemantikai rangsorolás.

Mintaadatok előkészítése

Ez a szakasz az ehhez a rövid útmutatóhoz használható adatokra mutat.

Jelentkezzen be az Azure Portalra az Azure-fiókjával, és lépjen az Azure Storage-fiókjába.
A navigációs panel Adattároló területén válassza a Tárolók lehetőséget.
Hozzon létre egy új tárolót, majd töltse fel a rövid útmutatóhoz használt állapotterv PDF-dokumentumait .
Mielőtt elhagyná az Azure Storage-fiókot az Azure Portalon, adjon engedélyt a Tároló blobadat-olvasójának a tárolóhoz, feltéve, hogy szerepköralapú hozzáférést szeretne. Vagy szerezze be a tárfiókhoz tartozó kapcsolati sztring az Access-kulcsok oldaláról.

Az Azure OpenAI kapcsolati adatainak lekérése

A varázslónak szüksége van egy végpontra, a text-embedding-ada-002 üzembe helyezésére, valamint egy API-kulcsra vagy egy keresési szolgáltatás által felügyelt identitásra a Cognitive Services OpenAI felhasználói engedélyeivel.

Jelentkezzen be az Azure Portalra az Azure-fiókjával, és nyissa meg az Azure OpenAI-erőforrást.
A Kulcsok és kezelés területen másolja ki a végpontot.
Ugyanazon a lapon másolja ki a kulcsot, vagy jelölje be a Hozzáférés-vezérlést , ha szerepkörtagokat szeretne hozzárendelni a keresési szolgáltatás identitásához.
A Modelltelepítések csoportban válassza az Üzemelő példányok kezelése lehetőséget az Azure AI Studio megnyitásához. Másolja ki a text-embedding-ada-002 üzembehelyezési nevét.

A varázsló indítása

Első lépésként keresse meg az Azure AI-Search szolgáltatás az Azure Portalon, és nyissa meg az Adatok importálása és vektorizálása varázslót.

Jelentkezzen be az Azure Portalra az Azure-fiókjával, és lépjen az Azure AI-Search szolgáltatás.
Az Áttekintés lapon válassza az Adatok importálása és vektorizálása lehetőséget.

Csatlakozás az adatokhoz

A következő lépés a keresési indexhez használni kívánt adatforráshoz való csatlakozás.

Az Adatok importálása és vektorizálása varázslóban az Csatlakozás az adatok lapjára bontsa ki az Adatforrás legördülő listát, és válassza az Azure Blob Storage lehetőséget.
Adja meg az adatokat biztosító Azure-előfizetést, tárfiókot és tárolót.
A kapcsolathoz adjon meg egy kulcsokat tartalmazó teljes hozzáférésű kapcsolati sztring, vagy adjon meg egy felügyelt identitást, amely rendelkezik Storage Blob Data Reader-engedélyekkel a tárolón.
Adja meg, hogy szeretné-e a törlésészlelést:
Válassza a Tovább elemet : Vektorizálás és dúsítás a folytatáshoz.

Adatok bővítése és vektorizálása

Ebben a lépésben adja meg az adattömbbe ágyazott adatok vektorizálásához használt beágyazási modellt.

Adja meg az előfizetés, a végpont, az API-kulcs és a modell üzembe helyezésének nevét.
Igény szerint feltörheti a bináris képeket (például beolvasott dokumentumfájlokat), és az OCR használatával felismerheti a szöveget.
Lehetőség van szemantikai rangsorolás hozzáadására, hogy a lekérdezés végrehajtásának végén a találatok újrafelfedezése a szemantikailag legrelevánsabb találatok előléptetésével legyen a csúcson.
Adja meg az indexelő futásidejének ütemezését .
Válassza a Tovább elemet : Létrehozás és felülvizsgálat a folytatáshoz.

A varázsló futtatása

Ez a lépés a következő objektumokat hozza létre:

Adatforrás-kapcsolat a blobtárolóval.
Index vektormezőkkel, vektorosítókkal, vektorprofilokkal, vektoralgoritmusokkal. A varázsló munkafolyamata során a rendszer nem kéri az alapértelmezett index megtervezését vagy módosítását. Az indexek megfelelnek a 2023-10-01-Preview verziónak.
A szövegfelosztási képességekkel rendelkező készségcsoport az adattömbhöz és az AzureOpenAIEmbeddingModel vektorizáláshoz.
Indexelő mezőleképezésekkel és kimeneti mezőleképezésekkel (ha van).

Ha hibaüzenetet kap, először tekintse át az engedélyeket. Cognitive Services OpenAI-felhasználóra van szüksége az Azure OpenAI-ban és a Storage Blob Data Readerben az Azure Storage-on. A blobok strukturálatlannak kell lenniük (az adattömbök a blob "content" tulajdonságából származnak).

Eredmények ellenőrzése

A Keresőböngésző szövegsztringeket fogad bemenetként, majd vektorizálja a szöveget a vektoros lekérdezések végrehajtásához.

Jelölje ki az indexet.
Ha szeretné, válassza a Lekérdezési beállítások lehetőséget , és rejtse el a vektorértékeket a keresési eredmények között. Ez a lépés megkönnyíti a keresési eredmények olvasását.
Válassza a JSON-nézetet , hogy a vektoros lekérdezés szövegét be tudja írni a szövegvektor-lekérdezés paraméterébe.

Ez a varázsló egy alapértelmezett lekérdezést kínál, amely vektoros lekérdezést ad ki a "vektor" mezőben, és visszaadja az 5 legközelebbi szomszédot. Ha úgy döntött, hogy elrejti a vektorértékeket, az alapértelmezett lekérdezés tartalmaz egy "select" utasítást, amely kizárja a vektormezőt a keresési eredményekből.
```
{
   "select": "chunk_id,parent_id,chunk,title",
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "vector"
       }
    ]
}
```
Cserélje le a szöveget "*" egy állapottervekkel kapcsolatos kérdésre, például ", hogy melyik terv rendelkezik a legalacsonyabb levonható értékkel".
A lekérdezés futtatásához válassza a Keresés lehetőséget .

5 találatot kell látnia, ahol minden dokumentum az eredeti PDF-fájl egy-egy darabja. A címmezőben látható, hogy az adattömb melyik PDF-fájlból származik.

Ha egy adott dokumentum összes adattömbét meg szeretné tekinteni, vegyen fel egy szűrőt egy adott PDF címmezőjére:

{
   "select": "chunk_id,parent_id,chunk,title",
   "filter": "title eq 'Benefit_Options.pdf'",
   "count": true,
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "vector"
       }
    ]
}

A fölöslegessé vált elemek eltávolítása

Az Azure AI Search egy számlázható erőforrás. Ha már nincs rá szükség, törölje az előfizetésből a díjak elkerülése érdekében.

Következő lépések

Ez a rövid útmutató bemutatta az Adatok importálása és vektorizálása varázslót, amely létrehozza az integrált vektorizáláshoz szükséges összes objektumot. Ha részletesen szeretné megismerni az egyes lépéseket, próbáljon ki egy integrált vektorizálási mintát.

Megosztás a következőn keresztül: