AI-bővítés az Azure AI Searchben

Az Azure AI Searchben az AI-bővítés az Azure AI-szolgáltatásokkal való integrációt jelenti a nyers formában nem kereshető tartalmak feldolgozásához. A bővítés, az elemzés és a következtetés segítségével kereshető tartalmakat és szerkezeteket hozhat létre, ahol korábban még nem létezett.

Mivel az Azure AI Search egy szöveges és vektoros keresési megoldás, az AI-bővítés célja, hogy javítsa a tartalom hasznosságát a kereséssel kapcsolatos forgatókönyvekben. A forrástartalomnak szövegesnek kell lennie (a vektorok nem bővíthetők), de a bővítési folyamat által létrehozott tartalom vektorizálható és indexelhető egy vektortárolóban olyan készségek használatával, mint a szövegfelosztási képesség az adattömbökhöz és az AzureOpenAIEmbedding képesség kódoláshoz.

Az AI-bővítés a készségeken alapul.

A beépített képességek az Azure AI-szolgáltatásokra koppintanak. A nyers tartalomra a következő átalakításokat és feldolgozást alkalmazzák:

  • Fordítás és nyelvfelismerés többnyelvű kereséshez
  • Entitásfelismerés személyek nevének, helyeinek és egyéb entitásainak kinyeréséhez nagy méretű szövegtömbökből
  • Kulcskifejezések kinyerése a fontos kifejezések azonosításához és kimenetéhez
  • Optikai karakterfelismerés (OCR) a bináris fájlokban lévő nyomtatott és kézzel írt szövegek felismeréséhez
  • Képelemzés a képtartalom leírásához, és a leírások kereshető szövegmezőkként való megjelenítése

Az egyéni képességek futtatják a külső kódot. Az egyéni képességek a folyamatba felvenni kívánt egyéni feldolgozásokhoz használhatók.

Az AI-bővítés egy indexelő folyamat kiterjesztése, amely Azure-adatforrásokhoz csatlakozik. A bővítési folyamatok az indexelő folyamat összes összetevőjét (indexelő, adatforrás, index) és egy olyan képességkészletet is tartalmaz, amely atomi bővítési lépéseket határoz meg.

Az alábbi ábra az AI-bővítés előrehaladását mutatja be:

Diagram of an enrichment pipeline.

Az importálás az első lépés. Itt az indexelő csatlakozik egy adatforráshoz, és lekéri a tartalmat (dokumentumokat) a keresési szolgáltatásba. Az Azure Blob Storage az AI-bővítési forgatókönyvekben leggyakrabban használt erőforrás, de bármely támogatott adatforrás képes tartalmat biztosítani.

Az Enrich &Index az AI-bővítési folyamat nagy részét lefedi:

  • A bővítés akkor kezdődik, amikor az indexelő "feltöri a dokumentumokat" , és képeket és szöveget nyer ki. A következő feldolgozás típusa az adatoktól és a képességkészlethez hozzáadott készségektől függ. Ha rendelkezik képekkel, azokat továbbíthatja a képfeldolgozást végző készségeknek. A szöveges tartalom sorba van állítva a szöveg és a természetes nyelvi feldolgozás érdekében. Belsőleg a készségek létrehoznak egy "bővített dokumentumot" , amely összegyűjti az átalakításokat, amint azok történnek.

  • A bővített tartalom a képességkészlet végrehajtása során jön létre, és ideiglenes, kivéve, ha menti. Engedélyezheti, hogy a bővítési gyorsítótár megőrizze a feltört dokumentumokat és a képességkimeneteket, hogy később újra felhasználhatók legyenek a képességkészlet későbbi végrehajtása során.

  • A tartalom keresési indexbe való beolvasásához az indexelőnek rendelkeznie kell a bővített tartalom célmezőbe való küldéséhez szükséges leképezési információkkal. A mezőleképezések (explicit vagy implicit) a forrásadatokból a keresési indexbe állítják be az elérési utat. A kimeneti mezőleképezések az adatelérési utat a bővített dokumentumoktól az indexekig állítják be.

  • Az indexelés az a folyamat, amely során a nyers és gazdagított tartalmak a keresési index (annak fájljai és mappái) fizikai adatstruktúráiba kerülnek. Ebben a lépésben lexikális elemzés és tokenizálás történik.

A feltárás az utolsó lépés. A kimenet mindig egy keresési index , amelyet lekérdezhet egy ügyfélalkalmazásból. A kimenet opcionálisan egy olyan tudástár is lehet, amely az Azure Storage-ban található blobokból és táblákból áll, amelyek adatfeltárási eszközökkel vagy lefelé irányuló folyamatokkal érhetők el. Tudástár létrehozásakor a kivetítések határozzák meg a bővített tartalom adatútvonalát. Ugyanez a bővített tartalom megjelenhet az indexekben és a tudástárakban is.

Mikor érdemes a mi-bővítést használni?

A bővítés akkor hasznos, ha a nyers tartalom strukturálatlan szöveg, képtartalom vagy nyelvfelismerést és fordítást igénylő tartalom. Ha a beépített készségeken keresztül alkalmazza az AI-t , a tartalom teljes szöveges kereséshez és adatelemzési alkalmazásokhoz is használható.

A külső feldolgozáshoz egyéni képességeket is létrehozhat. A nyílt forráskódú, külső vagy belső kód egyéni képességként integrálható a folyamatba. A különböző dokumentumtípusok hasznos jellemzőit azonosító besorolási modellek ebbe a kategóriába tartoznak, de bármely olyan külső csomag használható, amely értéket ad a tartalomnak.

Használati esetek beépített készségekhez

A beépített készségek az Azure AI-szolgáltatások API-ján alapulnak: Az Azure AI Computer Vision és a Language Service. Ha a tartalombevitel nem kicsi, akkor a nagyobb számítási feladatok futtatásához egy számlázható Azure AI-szolgáltatási erőforrást kell csatolnia.

A beépített készségekkel összeállított készségkészlet a következő alkalmazási helyzetekben használható:

Használati esetek egyéni képességekhez

Az egyéni képességek végrehajtják az Ön által megadott külső kódot, és becsomagolják az egyéni képesség webes felületén. Az egyéni képességekre számos példa található az azure-search-power-skills GitHub-adattárban.

Az egyéni képességek nem mindig összetettek. Ha például van egy meglévő csomagja, amely mintaegyezést vagy dokumentumbesorolási modellt biztosít, azt egy egyéni képességbe csomagolhatja.

Kimenet tárolása

Az Azure AI Searchben egy indexelő menti a létrehozott kimenetet. Egyetlen indexelő futtatás legfeljebb három adatstruktúrát hozhat létre, amelyek gazdagított és indexelt kimenetet tartalmaznak.

Adattár Szükséges Hely Leírás
kereshető index Szükséges Keresési szolgáltatás Teljes szöveges kereséshez és más lekérdezési űrlapokhoz használható. Az index megadása indexelő követelmény. Az index tartalma a képességkimenetekből, valamint az index mezőire közvetlenül leképezett forrásmezőkből van feltöltve.
tudástár Választható Azure Storage Az alsóbb rétegbeli alkalmazásokhoz, például a tudásbányászathoz vagy az adatelemzéshez használatos. A tudástár egy készségkészleten belül van definiálva. Definíciója meghatározza, hogy a bővített dokumentumok táblákként vagy objektumokként (fájlokként vagy blobként) vannak-e kivetítve az Azure Storage-ban.
bővítési gyorsítótár Választható Azure Storage A további képességkészlet-végrehajtásokban való újrahasználathoz szükséges bővítések gyorsítótárazásához használatos. A gyorsítótár az importált, feldolgozatlan tartalmakat (repedt dokumentumokat) tárolja. A készségkészlet végrehajtása során létrehozott bővített dokumentumokat is tárolja. A gyorsítótárazás akkor hasznos, ha képelemzést vagy OCR-t használ, és el szeretné kerülni a képfájlok újrafeldolgozásának idejét és költségeit.

Az indexek és a tudástárak teljesen függetlenek egymástól. Bár indexet kell csatolnia az indexelő követelményeinek teljesítéséhez, ha az egyetlen cél egy tudástár, akkor a feltöltés után figyelmen kívül hagyhatja az indexet.

Tartalom felfedezése

Miután definiált és betöltött egy keresési indexet vagy egy tudástárat, megismerheti az adatokat.

Keresési index lekérdezése

Lekérdezések futtatásával érheti el a folyamat által létrehozott bővített tartalmat. Az index olyan, mint bármely más, amelyet az Azure AI Search szolgáltatáshoz létrehozhat: kiegészítheti a szövegelemzést egyéni elemzőkkel, meghívhat homályos keresési lekérdezéseket, szűrőket adhat hozzá, vagy kísérletezhet pontozási profilokkal a keresési relevancia finomhangolásához.

Adatfeltáró eszközök használata egy tudástárban

Az Azure Storage-ban a tudástár a következő űrlapokat feltételezheti: JSON-dokumentumok blobtárolója, képobjektumokat tartalmazó blobtároló vagy táblatábla a Table Storage-ban. A tartalom eléréséhez használhatja a Storage Explorert, a Power BI-t vagy az Azure Storage-hoz csatlakozó bármely alkalmazást.

  • A blobtárolók teljes egészében rögzítik a bővített dokumentumokat, ami akkor hasznos, ha más folyamatokba hoz létre hírcsatornát.

  • A táblázat akkor hasznos, ha bővített dokumentumszeletekre van szüksége, vagy ha a kimenet bizonyos részeit is bele szeretné foglalni vagy kizárni. A Power BI-ban végzett elemzéshez a táblák az ajánlott adatforrások az adatfeltáráshoz és a vizualizációhoz a Power BI-ban.

Rendelkezésre állás és díjszabás

A bővítés az Azure AI-szolgáltatásokkal rendelkező régiókban érhető el. A bővítés elérhetőségét a régiónként elérhető Azure-termékek oldalán ellenőrizheti.

A számlázás használatalapú díjszabási modellt követ. A beépített készségek használatának költségei akkor kerülnek átadásra, ha egy többrégiós Azure AI-szolgáltatási kulcs van megadva a képességkészletben. Az Azure AI Search által mért képkinyeréssel kapcsolatos költségek is költségekkel járnak. A szöveg kinyerése és a segédprogrammal kapcsolatos ismeretek azonban nem számlázhatók. További információ: Hogyan kell fizetnie az Azure AI Searchért.

Ellenőrzőlista: Egy tipikus munkafolyamat

A bővítési folyamat olyan indexelőkből áll, amelyek rendelkeznek képességkészletekkel. Az indexelés után lekérdezhet egy indexet az eredmények ellenőrzéséhez.

Kezdje az adatok egy részhalmazával egy támogatott adatforrásban. Az indexelő és a készségkészlet tervezése iteratív folyamat. A munka gyorsabban megy egy kis reprezentatív adatkészlettel.

  1. Hozzon létre egy adatforrást, amely megadja az adatokhoz való kapcsolatot.

  2. Hozzon létre egy készségkészletet. Ha a projekt kicsi, csatoljon egy többszolgáltatásos Azure AI-erőforrást. Ha tudástárat hoz létre, definiálja azt a készségkészleten belül.

  3. Hozzon létre egy keresési indexet meghatározó indexsémát .

  4. Hozza létre és futtassa az indexelőt a fenti összetevők összehozásához. Ez a lépés lekéri az adatokat, futtatja a készségkészletet, és betölti az indexet.

    Az indexelők olyan mezőleképezéseket és kimeneti mezőleképezéseket is megadhatnak, amelyek beállítják az adatelérési utat egy keresési indexhez.

    Ha szeretné, engedélyezze a bővítés gyorsítótárazását az indexelő konfigurációjában. Ezzel a lépéssel később újra felhasználhatja a meglévő bővítéseket.

  5. Lekérdezések futtatásával értékelheti ki az eredményeket, vagy hibakeresési munkamenetet indíthat a készségkészlet-problémák megoldásához.

A fenti lépések bármelyikének megismétléséhez állítsa alaphelyzetbe az indexelőt a futtatás előtt. Vagy törölje és hozza létre újra az objektumokat minden futtatáskor (az ingyenes szint használata esetén ajánlott). Ha engedélyezte a gyorsítótárazást, az indexelő lekéri a gyorsítótárból, ha az adatok nem változnak a forrásnál, és ha a folyamaton végzett módosítások nem érvényteleníti a gyorsítótárat.

Következő lépések