Megosztás a következőn keresztül:


Rövid útmutató: Adatok importálása és vektorizálása varázsló (előzetes verzió)

Fontos

Az Adatok importálása és vektorizálása varázsló nyilvános előzetes verzióban érhető el a kiegészítő használati feltételek alatt. Alapértelmezés szerint a 2024-05-01-Preview REST API-t célozza meg.

Ismerkedés az integrált vektorizálással (előzetes verzió) az Adatok importálása és vektorizálása varázslóval az Azure Portalon. Ez a varázsló meghív egy felhasználó által megadott beágyazási modellt, amely vektorizálja a tartalmat az indexelés és a lekérdezések során.

Az útmutató elvégzéséhez három Azure-erőforrásra és néhány mintafájlra van szüksége:

  • Azure Blob Storage vagy Microsoft Fabric a OneLake-nal az adatokhoz
  • Azure-vektorizációk: az Azure AI-szolgáltatások többszolgáltatásos fiókja, az Azure OpenAI vagy az Azure AI Studio modellkatalógusa
  • Azure AI-keresés indexeléshez és lekérdezésekhez

Előzetes verzióra vonatkozó korlátozások

  • A forrásadatok azure Blob Storage-fájlok vagy OneLake-fájlok és parancsikonok, az alapértelmezett elemzési mód (blobonként vagy fájlonként egy keresési dokumentum) használatával.

  • Az indexséma nem konfigurálható. A forrásmezők közé tartozik a "content" (darabolt és vektorizált), a cím "metadata_storage_name" és a dokumentumkulcs "metadata_storage_path" (az Indexben látható módon parent_id ).

  • Az adattömb nem konfigurálható. A hatályos beállítások a következők:

    textSplitMode: "pages",
    maximumPageLength: 2000,
    pageOverlapLength: 500
    

Ha kevesebb korlátozást vagy több adatforrás-beállítást keres, próbálkozzon egy kódbázis-megközelítéssel. Részletekért tekintse meg az integrált vektorizációs mintát .

Előfeltételek

A fenti erőforrásoknak nyilvános hozzáféréssel kell rendelkezniük ahhoz, hogy a portálcsomópontok hozzáférhessenek hozzájuk. Ellenkező esetben a varázsló meghiúsul. A varázsló futtatása után a tűzfalak és a privát végpontok engedélyezhetők a különböző integrációs összetevőkön a biztonság érdekében.

Ha a privát végpontok már léteznek, és nem tilthatók le, a másik lehetőség a megfelelő végpontok közötti folyamat futtatása szkriptből vagy programból egy virtuális gépről a privát végpontgal azonos virtuális hálózaton belül. Íme egy Python-kódminta az integrált vektorizáláshoz. Ugyanabban a GitHub-adattárban más programozási nyelvek mintái találhatók.

Az ingyenes keresési szolgáltatás támogatja az Azure AI Search-kapcsolatok szerepköralapú hozzáférés-vezérlését, de nem támogatja az Azure Storage vagy az Azure AI Vision felé irányuló kimenő kapcsolatok felügyelt identitásait. Ez azt jelenti, hogy kulcsalapú hitelesítést kell használnia más Azure-szolgáltatások ingyenes keresési szolgáltatáskapcsolataihoz. A biztonságosabb kapcsolatok érdekében használja az alapszintű vagy annál magasabb szintet, és konfiguráljon egy felügyelt identitást és szerepkör-hozzárendelést az Azure AI Searchtől érkező kérések más Azure-szolgáltatásokhoz való beengedéséhez.

Szabad terület ellenőrzése

Ha az ingyenes szolgáltatással kezd, három indexre, három adatforrásra, három képességkészletre és három indexelőre korlátozódik. Mielőtt hozzákezdene, ellenőrizze, hogy elegendő hellyel rendelkezik-e további elemek számára. Ez a rövid útmutató minden objektum egyikét hozza létre.

Szolgáltatás identitásának ellenőrzése

Javasoljuk, hogy szerepkör-hozzárendeléseket biztosítsunk a keresési szolgáltatás más erőforrásokhoz való kapcsolataihoz.

  1. Az Azure AI Searchben engedélyezze a szerepköralapú hozzáférést.

  2. Konfigurálja a keresési szolgáltatást úgy, hogy rendszer- vagy felhasználó által hozzárendelt felügyelt identitást használjon.

A következő szakaszokban hozzárendelheti a keresési szolgáltatás által felügyelt identitást más szolgáltatások szerepköreihez. A szerepkör-hozzárendelések lépései adott esetben meg vannak adva.

Szemantikai rangsorolás ellenőrzése

Ez a varázsló támogatja a szemantikai rangsorolást, de csak alapszintű és magasabb szinten, és csak akkor, ha a szemantikai rangsorolás már engedélyezve van a keresési szolgáltatásban. Ha számlázható szintet használ, ellenőrizze, hogy engedélyezve van-e a szemantikai rangsorolás.

Mintaadatok előkészítése

Ez a szakasz az ehhez a rövid útmutatóhoz használható adatokra mutat.

  1. Jelentkezzen be az Azure Portalra az Azure-fiókjával, és lépjen az Azure Storage-fiókjába.

  2. A navigációs panel Adattároló területén válassza a Tárolók lehetőséget.

  3. Hozzon létre egy új tárolót, majd töltse fel a rövid útmutatóhoz használt állapotterv PDF-dokumentumait .

  4. Hozzáférés-vezérlés esetén rendelje hozzá a tárolón található Storage Blob-adatolvasót a keresési szolgáltatás identitásához. Vagy szerezze be a tárfiókhoz tartozó kapcsolati sztring az Access-kulcsok oldaláról.

Beágyazási modellek beállítása

Az integrált vektorizálás és az Adatok importálása és vektorizálása varázsló az indexelés során az üzembe helyezett beágyazási modellekre koppintva vektorokká alakítja a szöveget és a képeket.

Használhat beágyazási modelleket az Azure OpenAI-ban, az Azure AI Vision többmodális beágyazásokhoz, vagy az Azure AI Studio modellkatalógusában.

Az adatok importálása és vektorizálása támogatja a következőket: text-embedding-ada-002, text-embedding-3-large, text-embedding-3-small. A varázsló belsőleg az AzureOpenAIEmbedding képesség használatával csatlakozik az Azure OpenAI-hoz.

Ezekkel az utasításokat követve engedélyeket rendelhet hozzá, vagy lekérhet egy API-kulcsot a keresési szolgáltatás azure OpenAI-hoz való kapcsolatához. A varázsló futtatása előtt be kell állítania az engedélyeket vagy a kapcsolati adatokat.

  1. Jelentkezzen be az Azure Portalra az Azure-fiókjával, és nyissa meg az Azure OpenAI-erőforrást.

  2. Engedélyek beállítása:

    1. A bal oldali menüben válassza a Hozzáférés-vezérlés lehetőséget.

    2. Válassza a Hozzáadás, majd a Szerepkör-hozzárendelés hozzáadása lehetőséget.

    3. A Feladat függvényszerepkörök csoportban válassza a Cognitive Services OpenAI-felhasználó, majd a Tovább lehetőséget.

    4. A Tagok területen válassza a Felügyelt identitás, majd a Tagok lehetőséget.

    5. Szűrjön előfizetés és erőforrástípus (Search szolgáltatás) szerint, majd válassza ki a keresési szolgáltatás felügyelt identitását.

    6. Válassza az Áttekintés + hozzárendelés lehetőséget.

  3. Az Áttekintés lapon válassza az Ide kattintva megtekintheti a végpontokat , és ide kattintva kezelheti a kulcsokat , ha egy végpontot vagy API-kulcsot szeretne másolni. Ezeket az értékeket beillesztheti a varázslóba, ha azure OpenAI-erőforrást használ kulcsalapú hitelesítéssel.

  4. Az Azure AI Studio megnyitásához válassza az Erőforrás-kezelés és a Modell telepítések csoportban az Üzemelő példányok kezelése lehetőséget.

  5. Másolja ki a text-embedding-ada-002 vagy más támogatott beágyazási modell üzembehelyezési nevét. Ha nem rendelkezik beágyazási modellel, helyezzen üzembe egyet.

A varázsló indítása

  1. Jelentkezzen be az Azure Portalra az Azure-fiókjával, és lépjen az Azure AI-Search szolgáltatás.

  2. Az Áttekintés lapon válassza az Adatok importálása és vektorizálása lehetőséget.

    Képernyőkép a varázsló parancsáról.

Csatlakozás az adatokhoz

A következő lépés a keresési indexhez használni kívánt adatforráshoz való csatlakozás.

  1. A Csatlakozás az adatokhoz lapon az Adatok importálása és vektorizálása varázslóban bontsa ki az Adatforrás legördülő listát, és válassza az Azure Blob Storage vagy a OneLake lehetőséget.

  2. Adja meg az Azure-előfizetést.

  3. A OneLake esetében adja meg a lakehouse URL-címét, vagy adja meg a munkaterületet és a lakehouse azonosítókat.

  4. Az Azure Storage esetében válassza ki az adatokat biztosító fiókot és tárolót.

  5. Adja meg, hogy szeretné-e a törlésészlelést.

  6. Válassza a Tovább lehetőséget.

A szöveg vektorizálása

Ebben a lépésben adja meg az adattömbbe ágyazott adatok vektorizálásához használt beágyazási modellt.

  1. Adja meg, hogy az üzembe helyezett modellek az Azure OpenAI-ban, az Azure AI Studio modellkatalógusában vagy egy meglévő Azure AI Vision multimodális erőforrásban találhatók-e az Azure AI Searchrel azonos régióban.

  2. Adja meg az Azure-előfizetést.

  3. Az Azure OpenAI esetében válassza ki a szolgáltatást, a modell üzembe helyezését és a hitelesítési típust. Részletekért lásd: Beágyazási modellek beállítása.

  4. Az AI Studio katalógusában válassza ki a projektet, a modell üzembe helyezését és a hitelesítés típusát. Részletekért lásd: Beágyazási modellek beállítása.

  5. Az AI Vision vektorizálásához válassza ki a fiókot. Részletekért lásd: Beágyazási modellek beállítása.

  6. Jelölje be az erőforrások használatának számlázási hatását elismerő jelölőnégyzetet.

  7. Válassza a Tovább lehetőséget.

Képek vektorizálása és bővítése

Ha a tartalom képeket tartalmaz, a mesterséges intelligenciát kétféleképpen alkalmazhatja:

  • Használjon támogatott képbeágyazási modellt a katalógusból, vagy válassza az Azure AI Vision multimodális beágyazási API-t a képek vektorizálásához.
  • A képek szövegének felismeréséhez használja az OCR-t.

Az Azure AI Searchnek és az Azure AI-erőforrásnak ugyanabban a régióban kell lennie.

  1. Adja meg, hogy milyen típusú kapcsolatot kell létesítenie a varázslónak. Képvektorizáláshoz csatlakozhat az Azure AI Studióban vagy az Azure AI Visionben található beágyazási modellekhez.

  2. Adja meg az előfizetést.

  3. Az Azure AI Studio modellkatalógusában adja meg a projektet és az üzembe helyezést. Részletekért lásd : Beágyazási modell beállítása.

  4. Igény szerint feltörheti a bináris képeket (például beolvasott dokumentumfájlokat), és az OCR használatával felismerheti a szöveget.

  5. Jelölje be az erőforrások használatának számlázási hatását elismerő jelölőnégyzetet.

  6. Válassza a Tovább lehetőséget.

Speciális beállítások

  1. Lehetőség van szemantikai rangsorolás hozzáadására, hogy a lekérdezés végrehajtásának végén a találatok újrafelfedezése a szemantikailag legrelevánsabb találatok előléptetésével legyen a csúcson.

  2. Igény szerint adja meg az indexelő futásidejének ütemezését .

  3. Válassza a Tovább lehetőséget.

A varázsló futtatása

  1. A Véleményezés és létrehozás területen adja meg a varázsló futtatásakor létrehozott objektumok előtagját. Egy gyakori előtag segít a rendszerezésben.

  2. A varázsló futtatásához válassza a Létrehozás lehetőséget . Ez a lépés a következő objektumokat hozza létre:

Ha nem tudja kiválasztani az Azure AI Vision vektorizálót, győződjön meg arról, hogy rendelkezik egy Azure AI Vision-erőforrással egy támogatott régióban, és hogy a keresési szolgáltatás által felügyelt identitás rendelkezik Cognitive Services OpenAI felhasználói engedélyekkel.

Ha nem tudja végighaladni a varázslón, mert más lehetőségek nem érhetők el (például nem választhat adatforrást vagy beágyazási modellt), próbálkozzon újra a szerepkör-hozzárendelésekkel. A hibaüzenetek azt jelzik, hogy a modellek vagy az üzemelő példányok nem léteznek, ha valójában a valódi probléma az, hogy a keresési szolgáltatás nem rendelkezik hozzáféréssel.

Eredmények ellenőrzése

A Keresőböngésző szövegsztringeket fogad bemenetként, majd vektorizálja a szöveget a vektoros lekérdezések végrehajtásához.

  1. Az Azure Portal Kereséskezelés és indexek területén válassza ki a létrehozott indexet.

  2. Ha szeretné, válassza a Lekérdezési beállítások lehetőséget , és rejtse el a vektorértékeket a keresési eredmények között. Ez a lépés megkönnyíti a keresési eredmények olvasását.

    Képernyőkép a lekérdezés beállításai gombról.

  3. Válassza a JSON-nézetet , hogy a vektoros lekérdezés szövegét be tudja írni a szövegvektor-lekérdezés paraméterébe.

    Képernyőkép a JSON-választóról.

    Ez a varázsló egy alapértelmezett lekérdezést kínál, amely vektoros lekérdezést ad ki a "vektor" mezőben, és visszaadja az 5 legközelebbi szomszédot. Ha úgy döntött, hogy elrejti a vektorértékeket, az alapértelmezett lekérdezés tartalmaz egy "select" utasítást, amely kizárja a vektormezőt a keresési eredményekből.

    {
       "select": "chunk_id,parent_id,chunk,title",
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "vector"
           }
        ]
    }
    
  4. Cserélje le a szöveget "*" egy állapottervekkel kapcsolatos kérdésre, például ", hogy melyik terv rendelkezik a legalacsonyabb levonható értékkel".

  5. A lekérdezés futtatásához válassza a Keresés lehetőséget .

    Képernyőkép a keresési eredményekről.

    5 találatot kell látnia, ahol minden dokumentum az eredeti PDF-fájl egy-egy darabja. A címmezőben látható, hogy az adattömb melyik PDF-fájlból származik.

  6. Ha egy adott dokumentum összes adattömbét meg szeretné tekinteni, vegyen fel egy szűrőt egy adott PDF címmezőjére:

    {
       "select": "chunk_id,parent_id,chunk,title",
       "filter": "title eq 'Benefit_Options.pdf'",
       "count": true,
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "vector"
           }
        ]
    }
    
    

A fölöslegessé vált elemek eltávolítása

Az Azure AI Search egy számlázható erőforrás. Ha már nincs rá szükség, törölje az előfizetésből a díjak elkerülése érdekében.

Következő lépések

Ez a rövid útmutató bemutatta az Adatok importálása és vektorizálása varázslót, amely létrehozza az integrált vektorizáláshoz szükséges összes objektumot. Ha részletesen szeretné megismerni az egyes lépéseket, próbáljon ki egy integrált vektorizálási mintát.