Rövid útmutató: Adatok importálása és vektorizálása varázsló (előzetes verzió)

Cikk
06/18/2024

Fontos

Az Adatok importálása és vektorizálása varázsló nyilvános előzetes verzióban érhető el a kiegészítő használati feltételek alatt. Alapértelmezés szerint a 2024-05-01-Preview REST API-t célozza meg.

Ismerkedés az integrált vektorizálással (előzetes verzió) az Adatok importálása és vektorizálása varázslóval az Azure Portalon. Ez a varázsló meghív egy felhasználó által megadott beágyazási modellt, amely vektorizálja a tartalmat az indexelés és a lekérdezések során.

Az útmutató elvégzéséhez három Azure-erőforrásra és néhány mintafájlra van szüksége:

Azure Blob Storage vagy Microsoft Fabric a OneLake-nal az adatokhoz
Azure-vektorizációk: az Azure AI-szolgáltatások többszolgáltatásos fiókja, az Azure OpenAI vagy az Azure AI Studio modellkatalógusa
Azure AI-keresés indexeléshez és lekérdezésekhez

Előzetes verzióra vonatkozó korlátozások

A forrásadatok azure Blob Storage-fájlok vagy OneLake-fájlok és parancsikonok, az alapértelmezett elemzési mód (blobonként vagy fájlonként egy keresési dokumentum) használatával.
Az indexséma nem konfigurálható. A forrásmezők közé tartozik a "content" (darabolt és vektorizált), a cím "metadata_storage_name" és a dokumentumkulcs "metadata_storage_path" (az Indexben látható módon parent_id ).
Az adattömb nem konfigurálható. A hatályos beállítások a következők:
```
textSplitMode: "pages",
maximumPageLength: 2000,
pageOverlapLength: 500
```

Ha kevesebb korlátozást vagy több adatforrás-beállítást keres, próbálkozzon egy kódbázis-megközelítéssel. Részletekért tekintse meg az integrált vektorizációs mintát .

Előfeltételek

Azure-előfizetés. Hozzon létre egyet ingyen.
Az adatokhoz használjon Egy Azure Storage-fiókot vagy egy OneLake lakehouse-t. Az Azure Storage esetében használjon egy standard teljesítményű (általános célú v2)-fiókot. A hozzáférési szintek lehetnek gyakori, ritka és hideg.
A vektorizáláshoz rendelkeznie kell egy Többszolgáltatásos Azure AI-fiókkal vagy azure OpenAI-végponttal az üzembe helyezésekkel.

Az Azure AI Vision multimodális szolgáltatásához hozzon létre egy Azure AI-szolgáltatást SvédországCentral, EastUS, NorthEurope, WestEurope, WestUS, SoutheastAsia, KoreaCentral, FranceCentral, AustraliaEast, WestUS2, SwitzerlandNorth, JapanEast. Tekintse meg a frissített listát a dokumentációban .

Az Azure AI Studio modellkatalógusát (és hubját és projektét) modelltelepítésekkel is használhatja.
Az Azure AI Search ugyanabban a régióban található, mint az Azure AI-szolgáltatás. Az alapszintű vagy a magasabb szintű verziót javasoljuk
A modellek és adatforrások beágyazásához szükséges szerepkör-hozzárendelések vagy API-kulcsok. A szerepköralapú hozzáféréssel kapcsolatos utasításokat ebben a cikkben találja.

A fenti erőforrásoknak nyilvános hozzáféréssel kell rendelkezniük ahhoz, hogy a portálcsomópontok hozzáférhessenek hozzájuk. Ellenkező esetben a varázsló meghiúsul. A varázsló futtatása után a tűzfalak és a privát végpontok engedélyezhetők a különböző integrációs összetevőkön a biztonság érdekében.

Ha a privát végpontok már léteznek, és nem tilthatók le, a másik lehetőség a megfelelő végpontok közötti folyamat futtatása szkriptből vagy programból egy virtuális gépről a privát végpontgal azonos virtuális hálózaton belül. Íme egy Python-kódminta az integrált vektorizáláshoz. Ugyanabban a GitHub-adattárban más programozási nyelvek mintái találhatók.

Az ingyenes keresési szolgáltatás támogatja az Azure AI Search-kapcsolatok szerepköralapú hozzáférés-vezérlését, de nem támogatja az Azure Storage vagy az Azure AI Vision felé irányuló kimenő kapcsolatok felügyelt identitásait. Ez azt jelenti, hogy kulcsalapú hitelesítést kell használnia más Azure-szolgáltatások ingyenes keresési szolgáltatáskapcsolataihoz. A biztonságosabb kapcsolatok érdekében használja az alapszintű vagy annál magasabb szintet, és konfiguráljon egy felügyelt identitást és szerepkör-hozzárendelést az Azure AI Searchtől érkező kérések más Azure-szolgáltatásokhoz való beengedéséhez.

Szabad terület ellenőrzése

Ha az ingyenes szolgáltatással kezd, három indexre, három adatforrásra, három képességkészletre és három indexelőre korlátozódik. Mielőtt hozzákezdene, ellenőrizze, hogy elegendő hellyel rendelkezik-e további elemek számára. Ez a rövid útmutató minden objektum egyikét hozza létre.

Szolgáltatás identitásának ellenőrzése

Javasoljuk, hogy szerepkör-hozzárendeléseket biztosítsunk a keresési szolgáltatás más erőforrásokhoz való kapcsolataihoz.

Az Azure AI Searchben engedélyezze a szerepköralapú hozzáférést.
Konfigurálja a keresési szolgáltatást úgy, hogy rendszer- vagy felhasználó által hozzárendelt felügyelt identitást használjon.

A következő szakaszokban hozzárendelheti a keresési szolgáltatás által felügyelt identitást más szolgáltatások szerepköreihez. A szerepkör-hozzárendelések lépései adott esetben meg vannak adva.

Szemantikai rangsorolás ellenőrzése

Ez a varázsló támogatja a szemantikai rangsorolást, de csak alapszintű és magasabb szinten, és csak akkor, ha a szemantikai rangsorolás már engedélyezve van a keresési szolgáltatásban. Ha számlázható szintet használ, ellenőrizze, hogy engedélyezve van-e a szemantikai rangsorolás.

Mintaadatok előkészítése

Ez a szakasz az ehhez a rövid útmutatóhoz használható adatokra mutat.

Azure Storage
OneLake

Jelentkezzen be az Azure Portalra az Azure-fiókjával, és lépjen az Azure Storage-fiókjába.
A navigációs panel Adattároló területén válassza a Tárolók lehetőséget.
Hozzon létre egy új tárolót, majd töltse fel a rövid útmutatóhoz használt állapotterv PDF-dokumentumait .
Hozzáférés-vezérlés esetén rendelje hozzá a tárolón található Storage Blob-adatolvasót a keresési szolgáltatás identitásához. Vagy szerezze be a tárfiókhoz tartozó kapcsolati sztring az Access-kulcsok oldaláról.

Jelentkezzen be a Power BI-ba , és hozzon létre egy munkaterületet.
A Power BI-ban válassza a Munkaterületek lehetőséget a bal oldali menüben, és nyissa meg a létrehozott munkaterületet.
Engedélyek hozzárendelése a munkaterület szintjén:
1. A jobb felső menüben válassza a Hozzáférés kezelése lehetőséget.
2. Válassza a Személyek vagy csoportok hozzáadása lehetőséget.
3. Adja meg a keresési szolgáltatás nevét. Ha például az URL-cím, https://my-demo-service.search.windows.netakkor a keresési szolgáltatás neve .my-demo-service
4. Válasszon ki egy szerepkört. Az alapértelmezett a Viewer, de a közreműködőnek kell adatokat lekérnie egy keresési indexbe.
Töltse be a mintaadatokat:
1. A bal alsó sarokban található Power BI kapcsolóban válassza a adatmérnök lehetőséget.
2. A adatmérnök képernyőn válassza a Lakehouse lehetőséget egy tóház létrehozásához.
3. Adjon meg egy nevet, majd válassza a Létrehozás lehetőséget az új tóház létrehozásához és megnyitásához.
4. Válassza a Fájlok feltöltése lehetőséget, majd töltse fel a rövid útmutatóhoz használt állapotterv PDF-dokumentumait .
Mielőtt elhagyná a lakehouse-t, másolja ki az URL-címet, vagy kérje le a munkaterületet és a lakehouse azonosítókat, hogy meg tudja adni a lakehouse-t a varázslóban. Az URL-cím a következő formátumban van: https://msit.powerbi.com/groups/00000000-0000-0000-0000-000000000000/lakehouses/11111111-1111-1111-1111-111111111111?experience=data-engineering

Beágyazási modellek beállítása

Az integrált vektorizálás és az Adatok importálása és vektorizálása varázsló az indexelés során az üzembe helyezett beágyazási modellekre koppintva vektorokká alakítja a szöveget és a képeket.

Használhat beágyazási modelleket az Azure OpenAI-ban, az Azure AI Vision többmodális beágyazásokhoz, vagy az Azure AI Studio modellkatalógusában.

Az adatok importálása és vektorizálása támogatja a következőket: text-embedding-ada-002, text-embedding-3-large, text-embedding-3-small. A varázsló belsőleg az AzureOpenAIEmbedding képesség használatával csatlakozik az Azure OpenAI-hoz.

Ezekkel az utasításokat követve engedélyeket rendelhet hozzá, vagy lekérhet egy API-kulcsot a keresési szolgáltatás azure OpenAI-hoz való kapcsolatához. A varázsló futtatása előtt be kell állítania az engedélyeket vagy a kapcsolati adatokat.

Jelentkezzen be az Azure Portalra az Azure-fiókjával, és nyissa meg az Azure OpenAI-erőforrást.
Engedélyek beállítása:
1. A bal oldali menüben válassza a Hozzáférés-vezérlés lehetőséget.
2. Válassza a Hozzáadás, majd a Szerepkör-hozzárendelés hozzáadása lehetőséget.
3. A Feladat függvényszerepkörök csoportban válassza a Cognitive Services OpenAI-felhasználó, majd a Tovább lehetőséget.
4. A Tagok területen válassza a Felügyelt identitás, majd a Tagok lehetőséget.
5. Szűrjön előfizetés és erőforrástípus (Search szolgáltatás) szerint, majd válassza ki a keresési szolgáltatás felügyelt identitását.
6. Válassza az Áttekintés + hozzárendelés lehetőséget.
Az Áttekintés lapon válassza az Ide kattintva megtekintheti a végpontokat , és ide kattintva kezelheti a kulcsokat , ha egy végpontot vagy API-kulcsot szeretne másolni. Ezeket az értékeket beillesztheti a varázslóba, ha azure OpenAI-erőforrást használ kulcsalapú hitelesítéssel.
Az Azure AI Studio megnyitásához válassza az Erőforrás-kezelés és a Modell telepítések csoportban az Üzemelő példányok kezelése lehetőséget.
Másolja ki a text-embedding-ada-002 vagy más támogatott beágyazási modell üzembehelyezési nevét. Ha nem rendelkezik beágyazási modellel, helyezzen üzembe egyet.

A varázsló indítása

Jelentkezzen be az Azure Portalra az Azure-fiókjával, és lépjen az Azure AI-Search szolgáltatás.
Az Áttekintés lapon válassza az Adatok importálása és vektorizálása lehetőséget.

Csatlakozás az adatokhoz

A következő lépés a keresési indexhez használni kívánt adatforráshoz való csatlakozás.

A Csatlakozás az adatokhoz lapon az Adatok importálása és vektorizálása varázslóban bontsa ki az Adatforrás legördülő listát, és válassza az Azure Blob Storage vagy a OneLake lehetőséget.
Adja meg az Azure-előfizetést.
A OneLake esetében adja meg a lakehouse URL-címét, vagy adja meg a munkaterületet és a lakehouse azonosítókat.
Az Azure Storage esetében válassza ki az adatokat biztosító fiókot és tárolót.
Adja meg, hogy szeretné-e a törlésészlelést.
Válassza a Tovább lehetőséget.

A szöveg vektorizálása

Ebben a lépésben adja meg az adattömbbe ágyazott adatok vektorizálásához használt beágyazási modellt.

Adja meg, hogy az üzembe helyezett modellek az Azure OpenAI-ban, az Azure AI Studio modellkatalógusában vagy egy meglévő Azure AI Vision multimodális erőforrásban találhatók-e az Azure AI Searchrel azonos régióban.
Adja meg az Azure-előfizetést.
Az Azure OpenAI esetében válassza ki a szolgáltatást, a modell üzembe helyezését és a hitelesítési típust. Részletekért lásd: Beágyazási modellek beállítása.
Az AI Studio katalógusában válassza ki a projektet, a modell üzembe helyezését és a hitelesítés típusát. Részletekért lásd: Beágyazási modellek beállítása.
Az AI Vision vektorizálásához válassza ki a fiókot. Részletekért lásd: Beágyazási modellek beállítása.
Jelölje be az erőforrások használatának számlázási hatását elismerő jelölőnégyzetet.
Válassza a Tovább lehetőséget.

Képek vektorizálása és bővítése

Ha a tartalom képeket tartalmaz, a mesterséges intelligenciát kétféleképpen alkalmazhatja:

Használjon támogatott képbeágyazási modellt a katalógusból, vagy válassza az Azure AI Vision multimodális beágyazási API-t a képek vektorizálásához.
A képek szövegének felismeréséhez használja az OCR-t.

Az Azure AI Searchnek és az Azure AI-erőforrásnak ugyanabban a régióban kell lennie.

Adja meg, hogy milyen típusú kapcsolatot kell létesítenie a varázslónak. Képvektorizáláshoz csatlakozhat az Azure AI Studióban vagy az Azure AI Visionben található beágyazási modellekhez.
Adja meg az előfizetést.
Az Azure AI Studio modellkatalógusában adja meg a projektet és az üzembe helyezést. Részletekért lásd : Beágyazási modell beállítása.
Igény szerint feltörheti a bináris képeket (például beolvasott dokumentumfájlokat), és az OCR használatával felismerheti a szöveget.
Jelölje be az erőforrások használatának számlázási hatását elismerő jelölőnégyzetet.
Válassza a Tovább lehetőséget.

Speciális beállítások

Lehetőség van szemantikai rangsorolás hozzáadására, hogy a lekérdezés végrehajtásának végén a találatok újrafelfedezése a szemantikailag legrelevánsabb találatok előléptetésével legyen a csúcson.
Igény szerint adja meg az indexelő futásidejének ütemezését .
Válassza a Tovább lehetőséget.

A varázsló futtatása

A Véleményezés és létrehozás területen adja meg a varázsló futtatásakor létrehozott objektumok előtagját. Egy gyakori előtag segít a rendszerezésben.
A varázsló futtatásához válassza a Létrehozás lehetőséget . Ez a lépés a következő objektumokat hozza létre:
- Adatforrás-kapcsolat.
- Index vektormezőkkel, vektorosítókkal, vektorprofilokkal, vektoralgoritmusokkal. A varázsló munkafolyamata során a rendszer nem kéri az alapértelmezett index megtervezését vagy módosítását. Az indexek megfelelnek a 2024-05-01-preview REST API-nak.
- A szövegfelosztási képességekkel rendelkező készségcsoport az adattömbhöz és beágyazási képesség vektorizáláshoz. A beágyazási képesség vagy az Azure OpenAI AzureOpenAIEmbeddingModel-készsége , vagy az Azure AI Studio modellkatalógusához tartozó AML-képesség .
- Indexelő mezőleképezésekkel és kimeneti mezőleképezésekkel (ha van).

Ha nem tudja kiválasztani az Azure AI Vision vektorizálót, győződjön meg arról, hogy rendelkezik egy Azure AI Vision-erőforrással egy támogatott régióban, és hogy a keresési szolgáltatás által felügyelt identitás rendelkezik Cognitive Services OpenAI felhasználói engedélyekkel.

Ha nem tudja végighaladni a varázslón, mert más lehetőségek nem érhetők el (például nem választhat adatforrást vagy beágyazási modellt), próbálkozzon újra a szerepkör-hozzárendelésekkel. A hibaüzenetek azt jelzik, hogy a modellek vagy az üzemelő példányok nem léteznek, ha valójában a valódi probléma az, hogy a keresési szolgáltatás nem rendelkezik hozzáféréssel.

Eredmények ellenőrzése

A Keresőböngésző szövegsztringeket fogad bemenetként, majd vektorizálja a szöveget a vektoros lekérdezések végrehajtásához.

Az Azure Portal Kereséskezelés és indexek területén válassza ki a létrehozott indexet.
Ha szeretné, válassza a Lekérdezési beállítások lehetőséget , és rejtse el a vektorértékeket a keresési eredmények között. Ez a lépés megkönnyíti a keresési eredmények olvasását.
Válassza a JSON-nézetet , hogy a vektoros lekérdezés szövegét be tudja írni a szövegvektor-lekérdezés paraméterébe.

Ez a varázsló egy alapértelmezett lekérdezést kínál, amely vektoros lekérdezést ad ki a "vektor" mezőben, és visszaadja az 5 legközelebbi szomszédot. Ha úgy döntött, hogy elrejti a vektorértékeket, az alapértelmezett lekérdezés tartalmaz egy "select" utasítást, amely kizárja a vektormezőt a keresési eredményekből.
```
{
   "select": "chunk_id,parent_id,chunk,title",
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "vector"
       }
    ]
}
```
Cserélje le a szöveget "*" egy állapottervekkel kapcsolatos kérdésre, például ", hogy melyik terv rendelkezik a legalacsonyabb levonható értékkel".
A lekérdezés futtatásához válassza a Keresés lehetőséget .

5 találatot kell látnia, ahol minden dokumentum az eredeti PDF-fájl egy-egy darabja. A címmezőben látható, hogy az adattömb melyik PDF-fájlból származik.

Ha egy adott dokumentum összes adattömbét meg szeretné tekinteni, vegyen fel egy szűrőt egy adott PDF címmezőjére:

{
   "select": "chunk_id,parent_id,chunk,title",
   "filter": "title eq 'Benefit_Options.pdf'",
   "count": true,
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "vector"
       }
    ]
}

A fölöslegessé vált elemek eltávolítása

Az Azure AI Search egy számlázható erőforrás. Ha már nincs rá szükség, törölje az előfizetésből a díjak elkerülése érdekében.

Következő lépések

Ez a rövid útmutató bemutatta az Adatok importálása és vektorizálása varázslót, amely létrehozza az integrált vektorizáláshoz szükséges összes objektumot. Ha részletesen szeretné megismerni az egyes lépéseket, próbáljon ki egy integrált vektorizálási mintát.

Megosztás a következőn keresztül: