Megosztás:


AI-bővítés az Azure AI Searchben

Az Azure AI Searchben az AI-bővítés az Öntödei eszközökkel való integrációt jelenti a nyers formában nem kereshető tartalmak feldolgozásához. A bővítés, az elemzés és a következtetés segítségével kereshető tartalmakat és szerkezeteket hozhat létre, ahol korábban még nem létezett.

Mivel az Azure AI Search szöveges és vektoros lekérdezésekhez használatos, az AI-bővítés célja a tartalom hasznosabbá tétele a kereséssel kapcsolatos forgatókönyvekben. A nyers tartalomnak szövegnek vagy képeknek kell lennie (a vektorok nem bővíthetők), de a gazdagítási folyamat kimenete vektorizálható és indexelhető egy keresési indexben olyan készségek használatával, mint a szövegfelosztási képesség az adattömbökhöz és az Azure OpenAI beágyazási képessége vektorkódoláshoz . További információ a készségek vektoros forgatókönyvekben való használatáról: Integrált adattömbök és beágyazás.

Az AI-bővítés a készségeken alapul.

A beépített készségek koppintson az Öntödei eszközök elemre. A nyers tartalomra a következő átalakításokat és feldolgozást alkalmazzák:

  • Fordítás és nyelvfelismerés többnyelvű kereséshez.
  • Entitásfelismerés személyek nevének, helyeinek és egyéb entitásainak kinyeréséhez nagy méretű szövegtömbökből.
  • Kulcskifejezések kinyerése a fontos kifejezések azonosításához és kimenetéhez.
  • Optikai karakterfelismerés (OCR) a bináris fájlokban lévő nyomtatott és kézzel írt szövegek felismeréséhez.
  • Képelemzés a képtartalom leírásához és a leírások kereshető szövegmezőkként való kimenetéhez.
  • Szövegbeágyazások az Azure OpenAI-on keresztül az integrált vektorizáláshoz.
  • Multimodális beágyazások az Azure Visionen keresztül az Foundry Toolsban szöveg- és képvektorizáláshoz.

Az egyéni képességek futtatják a külső kódot. Egyéni képességeket használhat a folyamatba felvenni kívánt egyéni feldolgozásokhoz.

Az AI-bővítés egy indexelő folyamat kiterjesztése, amely Azure-adatforrásokhoz csatlakozik. A bővítési folyamatok az indexelő folyamat összes összetevőjét (indexelő, adatforrás, index) és egy olyan képességkészletet tartalmaz, amely az atomi bővítés lépéseit határozza meg.

Az alábbi ábra az AI-bővítés előrehaladását mutatja be:

Egy bővítési folyamat ábrája.

Az importálás az első lépés. Itt az indexelő csatlakozik egy adatforráshoz, és lekéri a tartalmat (dokumentumokat) a keresési szolgáltatásba. Az Azure Blob Storage az AI-bővítési forgatókönyvekben leggyakrabban használt erőforrás, de bármely támogatott adatforrás képes tartalmat biztosítani.

Az Enrich &Index az AI-bővítési folyamat nagy részét lefedi:

  • A bővítés akkor kezdődik, amikor az indexelő feltöri a dokumentumokat , és képeket és szöveget nyer ki. A következő feldolgozás típusa az adatoktól és a képességkészlethez hozzáadott készségektől függ. A képek továbbíthatók a képfeldolgozást végző készségeknek. A szöveges tartalom sorba van állítva a szöveg és a természetes nyelvi feldolgozás érdekében. Belsőleg a készségek létrehoznak egy bővített dokumentumot , amely összegyűjti az átalakításokat, amikor azok előfordulnak.

  • A bővített tartalom a képességkészlet végrehajtása során jön létre, és ideiglenes, kivéve, ha menti. Engedélyezheti, hogy a bővítési gyorsítótár megőrizze a képességkimeneteket a képességkészlet későbbi végrehajtása során való újbóli felhasználáshoz.

  • A tartalom keresési indexbe való beolvasásához az indexelőnek rendelkeznie kell a bővített tartalom célmezőbe való küldéséhez szükséges leképezési információkkal. A mezőleképezések (explicit vagy implicit) a forrásadatokból a keresési indexbe állítják be az elérési utat. A kimeneti mezőleképezések az adatelérési utat a bővített dokumentumoktól az indexekig állítják be.

  • Az indexelés az a folyamat, amely során a nyers és gazdagított tartalmak a keresési index (annak fájljai és mappái) fizikai adatstruktúráiba kerülnek. Ebben a lépésben lexikális elemzés és tokenizálás történik.

A feltárás az utolsó lépés. A kimenet mindig egy keresési index , amelyet lekérdezhet egy ügyfélalkalmazásból. A kimenet opcionálisan egy olyan tudástár is lehet, amely az Azure Storage-ban található blobokból és táblákból áll, amelyek adatfeltárási eszközökkel vagy lefelé irányuló folyamatokkal érhetők el. Tudástár létrehozásakor a kivetítések határozzák meg a bővített tartalom adatútvonalát. Ugyanez a bővített tartalom megjelenhet az indexekben és a tudástárakban is.

Mikor érdemes a mi-bővítést használni?

A bővítés akkor hasznos, ha a nyers tartalom strukturálatlan szöveg, képtartalom vagy nyelvfelismerést és fordítást igénylő tartalom. Az AI beépített képességeken keresztül történő alkalmazása teljes szöveges keresési és adatelemzési alkalmazásokban oldhatja fel ezt a tartalmat.

A külső feldolgozáshoz egyéni képességeket is létrehozhat. A nyílt forráskódú, külső vagy belső kód egyéni képességként integrálható a folyamatba. A különböző dokumentumtípusok hasznos jellemzőit azonosító besorolási modellek ebbe a kategóriába tartoznak, de bármely olyan külső csomag használható, amely értéket ad a tartalomnak.

Használati esetek beépített készségekhez

A beépített készségek az Foundry Tools API-kon alapulnak: Az Azure Vision és az Azure Language. Ha a tartalombevitel nem kicsi, akkor egy számlázható Microsoft Foundry-erőforrást kell csatolnia a nagyobb számítási feladatok futtatásához.

A beépített készségekkel összeállított készségkészlet a következő alkalmazási helyzetekben használható:

Használati esetek egyéni képességekhez

Az egyéni képességek végrehajtják az Ön által megadott külső kódot, és becsomagolják az egyéni képesség webes felületén. Az egyéni képességekre számos példa található az azure-search-power-skills GitHub-adattárban.

Az egyéni képességek nem mindig összetettek. Ha például van egy meglévő csomagja, amely mintaegyezést vagy dokumentumbesorolási modellt biztosít, azt egy egyéni képességbe csomagolhatja.

Kimenet tárolása

Az Azure AI Searchben egy indexelő menti a létrehozott kimenetet. Egyetlen indexelő futtatás legfeljebb három adatstruktúrát hozhat létre, amelyek gazdagított és indexelt kimenetet tartalmaznak.

Adattár Required Location Description
kereshető index Required Search szolgáltatás Teljes szöveges kereséshez és más lekérdezési űrlapokhoz használható. Az index megadása indexelő követelmény. Az index tartalma a képességkimenetekből, valamint az index mezőire közvetlenül leképezett forrásmezőkből van feltöltve.
tudástár Optional Azure Storage Olyan alárendelt alkalmazásokhoz használható, mint a tudásbányászat, az adatelemzés és a multimodális keresés. A tudástár egy készségkészleten belül van definiálva. Definíciója meghatározza, hogy a bővített dokumentumok táblákként vagy objektumokként (fájlokként vagy blobként) vannak-e kivetítve az Azure Storage-ban. Többmodális keresési forgatókönyvek esetén mentheti a kinyert képeket a tudástárba, és hivatkozhat rájuk lekérdezési időpontban, így a rendszerképek közvetlenül az ügyfélalkalmazások számára lesznek visszaadva.
bővítési gyorsítótár Optional Azure Storage A további képességkészlet-végrehajtásokban való újrahasználathoz szükséges bővítések gyorsítótárazásához használatos. A gyorsítótár az importált, feldolgozatlan tartalmakat (repedt dokumentumokat) tárolja. A készségkészlet végrehajtása során létrehozott bővített dokumentumokat is tárolja. A gyorsítótárazás akkor hasznos, ha képelemzést vagy OCR-t használ, és el szeretné kerülni a képfájlok újrafeldolgozásának idejét és költségeit.

Az indexek és a tudástárak teljesen függetlenek egymástól. Bár indexet kell csatolnia az indexelő követelményeinek teljesítéséhez, ha az egyetlen cél egy tudástár, akkor a feltöltés után figyelmen kívül hagyhatja az indexet.

Tartalom felfedezése

Miután definiált és betöltött egy keresési indexet vagy tudástárat, megismerheti azok adatait.

Keresési index lekérdezése

Lekérdezések futtatásával érheti el a folyamat által létrehozott bővített tartalmat. Az index olyan, mint bármely más, amelyet az Azure AI Search szolgáltatáshoz létrehozhat: kiegészítheti a szövegelemzést egyéni elemzőkkel, meghívhat homályos keresési lekérdezéseket, szűrőket adhat hozzá, vagy kísérletezhet pontozási profilokkal a keresési relevancia finomhangolásához.

Adatfeltáró eszközök használata egy tudástárban

Az Azure Storage-ban a tudástár a következő űrlapokat feltételezheti: JSON-dokumentumok blobtárolója, képobjektumokat tartalmazó blobtároló vagy táblatábla a Table Storage-ban. A tartalom eléréséhez használhatja a Storage Explorert, a Power BI-t vagy az Azure Storage-hoz csatlakozó bármely alkalmazást.

  • A blobtárolók teljes egészében rögzítik a bővített dokumentumokat, ami akkor hasznos, ha más folyamatokba hoz létre hírcsatornát.

  • A táblázat akkor hasznos, ha bővített dokumentumszeletekre van szüksége, vagy ha a kimenet bizonyos részeit is bele szeretné foglalni vagy kizárni. A Power BI-ban végzett elemzéshez a táblák az ajánlott adatforrások az adatfeltáráshoz és a vizualizációhoz a Power BI-ban.

Rendelkezésre állás és díjszabás

Az AI-bővítés az Öntödei eszközöket kínáló régiókban érhető el. Az AI-bővítés elérhetőségének ellenőrzéséhez tekintse meg a régiók listáját.

A számlázás egy standard díjszabási modellt követ. A beépített készségekkel kapcsolatos költségek akkor merülnek fel, ha az Azure OpenAI-t a Foundry Models erőforrásban vagy a Foundry erőforráskulcsot adja meg a képességkészletben. Az Azure AI Search által mért képkinyeréssel kapcsolatos költségek is költségekkel járnak. A szöveg kinyerése és a segédprogrammal kapcsolatos ismeretek azonban nem számlázhatók. További információ: Hogyan kell fizetnie az Azure AI Searchért.

Ellenőrzőlista: Egy tipikus munkafolyamat

A bővítési folyamat olyan indexelőkből áll, amelyek rendelkeznek képességkészletekkel. Az indexelés után lekérdezhet egy indexet az eredmények ellenőrzéséhez.

Kezdje az adatok egy részhalmazával egy támogatott adatforrásban. Az indexelő és a készségkészlet tervezése iteratív folyamat. A munka gyorsabban megy egy kis reprezentatív adatkészlettel.

  1. Hozzon létre egy adatforrást, amely megadja az adatokhoz való kapcsolatot.

  2. Hozzon létre egy készségkészletet. Ha a projekt nem kicsi, csatoljon egy Foundry-erőforrást. Ha tudástárat hoz létre, definiálja azt a készségkészleten belül.

  3. Hozzon létre egy keresési indexet meghatározó indexsémát .

  4. Hozza létre és futtassa az indexelőt az összes korábbi összetevő összehozásához. Ez a lépés lekéri az adatokat, futtatja a készségkészletet, és betölti az indexet.

    Az indexelők olyan mezőleképezéseket és kimeneti mezőleképezéseket is megadhatnak, amelyek beállítják az adatelérési utat egy keresési indexhez.

    Ha szeretné, engedélyezze a bővítés gyorsítótárazását az indexelő konfigurációjában. Ezzel a lépéssel később újra felhasználhatja a meglévő bővítéseket.

  5. Lekérdezések futtatásával értékelheti ki az eredményeket, vagy hibakeresési munkamenetet indíthat a készségkészlet-problémák megoldásához.

Az előző lépések bármelyikének megismétléséhez állítsa alaphelyzetbe az indexelőt a futtatás előtt. Másik lehetőségként törölheti és újra létrehozhatja az objektumokat minden futtatáskor (az ingyenes szint használata esetén ajánlott). Ha engedélyezte a gyorsítótárazást, az indexelő a gyorsítótárból dolgozik, amennyiben a forrásadatok változatlanok, és a csővezetéken végzett módosítások nem érvénytelenítik a gyorsítótárat.

Következő lépések