Adatok importálása varázsló az Azure AI Searchben

Az Adatok importálása varázsló az Azure Portalon több objektumot hoz létre indexeléshez és AI-bővítéshez egy keresési szolgáltatásban. Ha még csak most ismerkedik az Azure AI Search szolgáltatással, ez az egyik leghatékonyabb funkció. Minimális erőfeszítéssel létrehozhat egy indexelési vagy bővítési folyamatot, amely az Azure AI Search legtöbb funkcióját gyakorolja.

Ha a varázslót használja a megvalósíthatósági vizsgálathoz, ez a cikk ismerteti a varázsló belső működését, hogy hatékonyabban tudja használni.

Ez a cikk nem lépésről lépésre. Ha segítségre van szüksége a varázsló beépített mintaadatokkal való használatához, olvassa el a gyorsútmutatót: Keresési index létrehozása vagy rövid útmutató: Szövegfordítás és entitásismeretek létrehozása.

A varázsló indítása

Az Azure Portalon nyissa meg a keresési szolgáltatás lapját az irányítópulton, vagy keresse meg a szolgáltatást a szolgáltatáslistában. A felül található Szolgáltatás áttekintése lapon válassza az Adatok importálása lehetőséget.

Screenshot of the Import data command

A varázsló teljesen ki van bontva a böngészőablakban, hogy több hely legyen a munkához.

Az Importálási adatokat más Azure-szolgáltatásokból is elindíthatja, például az Azure Cosmos DB-ből, az Azure SQL Database-ből, a felügyelt SQL-példányból és az Azure Blob Storage-ból. Keresse meg az Azure AI Search hozzáadása lehetőséget a szolgáltatás áttekintési oldalán, a bal oldali navigációs panelen.

A varázsló által létrehozott objektumok

A varázsló az alábbi táblázatban adja ki az objektumokat. Az objektumok létrehozása után áttekintheti a JSON-definíciókat a portálon, vagy meghívhatja őket kódból.

Objektum Leírás
Indexelő Egy konfigurációs objektum, amely megadja az adatforrást, a célindexet, az opcionális képességkészletet, az opcionális ütemezést, valamint a hibaátadáshoz és a base-64 kódoláshoz szükséges opcionális konfigurációs beállításokat.
Adatforrás Megőrzi a kapcsolati adatokat egy támogatott adatforráshoz az Azure-ban. Az adatforrás-objektumokat kizárólag indexelők használják.
Index A teljes szöveges kereséshez és más lekérdezésekhez használt fizikai adatstruktúra.
Skillset Opcionális. A tartalom manipulálására, átalakítására és alakítására vonatkozó utasítások teljes készlete, beleértve a képfájlokból származó információk elemzését és kinyerését. Ha a munka mennyisége nem esik az indexelőnkénti napi 20 tranzakciós korlát alá, a képességkészletnek tartalmaznia kell egy, a bővítést biztosító, többszolgáltatásos Azure AI-erőforrásra mutató hivatkozást.
Tudástár Opcionális. Az AI-bővítési folyamat kimenetét táblákban és blobokban tárolja az Azure Storage-ban, független elemzés vagy alárendelt feldolgozás céljából.

Előnyök és korlátozások

A kód írása előtt használhatja a varázslót a prototípus-készítéshez és a megvalósíthatósági vizsgálathoz. A varázsló külső adatforrásokhoz csatlakozik, mintákat készít az adatokból egy kezdeti index létrehozásához, majd JSON-dokumentumokként importálja az adatokat egy indexbe az Azure AI Searchben.

A készségkészletek kiértékelése esetén a varázsló kezeli az összes kimeneti mezőleképezést, és segédfüggvényeket ad hozzá használható objektumok létrehozásához. Ha elemzési módot ad meg, szövegfelosztás lesz hozzáadva. A szövegegyesítés akkor lesz hozzáadva, ha képelemzést választott, hogy a varázsló újra egyesítse a szövegleírásokat képtartalommal. Ha a tudástár lehetőséget választja, az alakzatkezelő készségek hozzáadva az érvényes előrejelzések támogatásához. A fenti feladatok mindegyike tanulási görbével rendelkezik. Ha még csak most ismerkedik a bővítéssel, a lépések végrehajtásának lehetősége lehetővé teszi a képesség értékének mérését anélkül, hogy sok időt és energiát kellene fektetnie.

A mintavételezés az a folyamat, amellyel az indexséma kikövetkeztetett, és bizonyos korlátozásokkal rendelkezik. Az adatforrás létrehozásakor a varázsló kiválaszt egy véletlenszerű dokumentummintát, hogy eldöntse, mely oszlopok tartoznak az adatforráshoz. Nem minden fájl van beolvasva, mivel ez akár órákat is igénybe vehet a nagyon nagy méretű adatforrások esetében. A dokumentumok kiválasztásával a forrás metaadatai, például a mezőnév vagy a típus mezőgyűjtemények létrehozására szolgálnak egy indexsémában. A forrásadatok összetettségétől függően előfordulhat, hogy módosítania kell a kezdeti sémát a pontosság érdekében, vagy ki kell terjesztenie a teljesség érdekében. A módosításokat beágyazottan is elvégezheti az indexdefiníció oldalán.

Általánosságban elmondható, hogy a varázsló használatának előnyei egyértelműek: amíg a követelmények teljesülnek, percek alatt prototípust készíthet egy lekérdezhető indexről. Az indexelés néhány összetettségét, például az adatok JSON-dokumentumokként való szerializálását a varázsló kezeli.

A varázsló nem korlátozás nélkül működik. A korlátozások a következőképpen vannak összegezve:

  • A varázsló nem támogatja az iterációt vagy az újrafelhasználást. A varázsló minden áthaladása új index-, képességkészlet- és indexelőkonfigurációt hoz létre. A varázslóban csak adatforrások tárolhatók és használhatók fel újra. Más objektumok szerkesztéséhez vagy finomításához törölje az objektumokat, és kezdje újra, vagy használja a REST API-kat vagy a .NET SDK-t a struktúrák módosításához.

  • A forrástartalomnak támogatott adatforrásban kell lennie.

  • A mintavételezés a forrásadatok egy részhalmazán keresztül történik. Nagy adatforrások esetén előfordulhat, hogy a varázsló kihagyja a mezőket. Előfordulhat, hogy ki kell terjesztenie a sémát, vagy ki kell javítania a kikövetkeztetett adattípusokat, ha a mintavételezés nem elegendő.

  • A portálon közzétett AI-bővítés a beépített képességek egy részhalmazára korlátozódik.

  • A varázsló által létrehozható tudástárak csak néhány alapértelmezett előrejelzésre korlátozódnak, és egy alapértelmezett elnevezési konvenciót használnak. Ha testre szeretné szabni a neveket vagy az előrejelzéseket, létre kell hoznia a tudástárat a REST API-val vagy az SDK-kkal.

  • A varázsló használata közben engedélyezni kell az összes hálózat nyilvános elérését a támogatott adatforráson, mivel a portál nem fog tudni hozzáférni az adatforráshoz a beállítás során, ha a nyilvános hozzáférés le van tiltva. Ez azt jelenti, hogy ha az adatforrás tűzfala engedélyezve van, vagy megosztott privát hivatkozást állított be, le kell tiltania őket, futtatnia kell az Adatok importálása varázslót, majd engedélyeznie kell azt a varázsló beállítása után. Ha ez nem egy lehetőség, létrehozhat Azure AI Search-adatforrást, indexelőt, képességkészletet és indexelést a REST API-val vagy az SDK-kkal.

Workflow

A varázsló négy fő lépésből áll:

  1. Csatlakozás egy támogatott Azure-adatforrásra.

  2. Hozzon létre egy indexsémát a forrásadatok mintavételezésével.

  3. Igény szerint a tartalom és a struktúra kinyeréséhez vagy létrehozásához AI-bővítéseket adhat hozzá. Ebben a lépésben gyűjtjük össze a tudástár létrehozásához szükséges bemeneteket.

  4. Futtassa a varázslót objektumok létrehozásához, adatok betöltéséhez, ütemezés és egyéb konfigurációs beállítások beállításához.

A munkafolyamat egy folyamat, így ez az egyik módja. A varázslóval nem szerkesztheti a létrehozott objektumokat, de más portáleszközöket, például az indexelőt vagy az indexelő tervezőt vagy a JSON-szerkesztőket is használhatja az engedélyezett frissítésekhez.

Adatforrás-konfiguráció a varázslóban

Az Adatok importálása varázsló egy külső támogatott adatforráshoz csatlakozik az Azure AI Search-indexelők által biztosított belső logikával, amely alkalmas a forrás mintájára, a metaadatok olvasására, a dokumentumok feltörésére a tartalom és a struktúra olvasására, valamint a tartalom JSON-ként való szerializálására az Azure AI Searchbe való későbbi importáláshoz.

Beilleszthet egy kapcsolatot egy másik előfizetésben vagy régióban lévő támogatott adatforráshoz, de a Meglévő kapcsolatválasztó kiválasztása lehetőség az aktív előfizetésre van korlátozva.

Screenshot of the Connect to your data tab.

Nem minden előzetes verziójú adatforrás érhető el a varázslóban. Mivel az egyes adatforrások más módosításokat is bevezethetnek az alsóbb rétegben, az előzetes verziójú adatforrás csak akkor lesz hozzáadva az adatforrások listájához, ha teljes mértékben támogatja a varázsló összes funkcióját, például a képességkészlet definícióját és az indexséma következtetését.

Csak egyetlen táblából, adatbázisnézetből vagy azzal egyenértékű adatstruktúrából importálhat, de a struktúra hierarchikus vagy beágyazott alstruktúrákat is tartalmazhat. További információ: Összetett típusok modellezése.

Képességkészlet konfigurálása a varázslóban

A képességkészlet konfigurálása az adatforrás definíciója után történik, mivel az adatforrás típusa tájékoztatja bizonyos beépített képességek rendelkezésre állását. Ha például a Blob Storage-ból indexel fájlokat, a fájlok elemzési módjának kiválasztása határozza meg, hogy elérhető-e a hangulatelemzés.

A varázsló hozzáadja a választott készségeket, de a sikeres eredmény eléréséhez szükséges egyéb készségeket is hozzáadja. Ha például egy tudástárat ad meg, a varázsló hozzáad egy Shaper-képességet a kivetítések (vagy fizikai adatstruktúrák) támogatásához.

A készségkészletek nem kötelezőek, és az oldal alján található gomb segítségével továbbléphet, ha nem szeretné az AI-bővítést.

Indexséma konfigurálása a varázslóban

A varázsló mintát vesz az adatforrásból, hogy észlelje a mezőket és a mezők típusát. Az adatforrástól függően a metaadatok indexelését szolgáló mezőket is kínálhat.

Mivel a mintavételezés pontatlan gyakorlat, tekintse át az indexet az alábbi szempontok alapján:

  1. Pontos a mezőlista? Ha az adatforrás olyan mezőket tartalmaz, amelyeket nem vett fel a mintavételezés során, manuálisan hozzáadhat minden olyan új mezőt, amelyet a mintavételezés kihagyott, és eltávolíthat minden olyan mezőt, amely nem ad értéket a keresési élményhez, vagy amelyeket nem használ a szűrőkifejezésekben vagy a pontozási profilban.

  2. Megfelelő az adattípus a bejövő adatokhoz? Az Azure AI Search támogatja az entitás adatmodell (EDM) adattípusokat. Az Azure SQL-adatok esetében van egy leképezési diagram , amely egyenértékű értékeket határoz meg. További háttér : Mezőleképezések és -átalakítások.

  3. Van egy mezője, amely kulcsként szolgálhat? Ennek a mezőnek Edm.sztringnek kell lennie, és egyedileg kell azonosítania egy dokumentumot. A relációs adatok esetében előfordulhat, hogy az elsődleges kulcsra van leképezve. Blobok esetén ez lehet a metadata-storage-path. Ha a mezőértékek szóközöket vagy szaggatott kötőjeleket tartalmaznak, az Indexelő létrehozása lépésben a Base-64 Kódolási kulcs beállítást be kell állítania a Speciális beállítások területen, hogy ne lehessen ellenőrizni ezeket a karaktereket.

  4. Attribútumok beállítása annak meghatározásához, hogy a mező hogyan legyen használva egy indexben.

    Szánjon időt erre a lépésre, mert az attribútumok határozzák meg az index mezőinek fizikai kifejezését. Ha később, akár programozott módon is módosítani szeretné az attribútumokat, szinte mindig le kell dobnia és újra kell építenie az indexet. Az olyan alapvető attribútumok, mint a Kereshető és a Lekérdezhető , elhanyagolható hatással vannak a tárolásra. A szűrők engedélyezése és a javaslattevők használata növeli a tárolási követelményeket.

    • A kereshető funkció lehetővé teszi a teljes szöveges keresést. Minden szabad formátumú lekérdezésben vagy lekérdezési kifejezésben használt mezőnek rendelkeznie kell ezzel az attribútummal. A program invertált indexeket hoz létre minden olyan mezőhöz, amelyet kereshetőként jelöl meg.

    • A beolvasható a keresési eredményekben szereplő mezőt adja vissza. Minden olyan mezőnek, amely tartalmat biztosít a keresési eredményekhez, rendelkeznie kell ezzel az attribútummal. A mező beállítása nem befolyásolja jelentősen az index méretét.

    • A szűrhető lehetővé teszi a mező szűrési kifejezésekben való hivatkozását. A $filter kifejezésben használt összes mezőnek rendelkeznie kell ezzel az attribútummal. A szűrőkifejezések pontos egyezéseket jelentenek. Mivel a szöveges sztringek érintetlenek maradnak, több tárhelyre van szükség a szó szerinti tartalom tárolásához.

    • A facetable lehetővé teszi a mezőt a faceted navigációhoz. Csak a szűrhetőként megjelölt mezők jelölhetők facetableként.

    • A rendezhető mező lehetővé teszi a mező rendezését. Az $Orderby kifejezésben használt összes mezőnek rendelkeznie kell ezzel az attribútummal.

  5. Szüksége van lexikális elemzésre? A kereshető Edm.string mezők esetében beállíthatja az elemzőt, ha nyelvvel bővített indexelést és lekérdezést szeretne.

    Az alapértelmezett a Standard Lucene , de választhatja a Microsoft Angol nyelvet , ha a Microsoft elemzőjét szeretné használni a speciális lexikális feldolgozáshoz, például a szabálytalan főnév és az igealakok feloldásához. A portálon csak nyelvelemzők adhatók meg. Egyéni elemzőt vagy nem nyelvi elemzőt, például kulcsszót, mintát és így tovább, programozott módon kell elvégezni. Az elemzőkről további információt a Nyelvelemzők hozzáadása című témakörben talál.

  6. Szükség van a typeahead funkcióra automatikus kiegészítés vagy javasolt eredmények formájában? Jelölje be a Javaslattevő jelölőnégyzetet a típusfejléces lekérdezési javaslatok engedélyezéséhez és a kijelölt mezők automatikus kiegészítéséhez . A javaslattevők hozzáadják az indexben lévő tokenizált kifejezések számát, és így több tárhelyet használnak fel.

Indexelő konfigurálása a varázslóban

A varázsló utolsó oldala összegyűjti az indexelő konfigurációjának felhasználói bemeneteit. Megadhat ütemezést, és egyéb beállításokat is megadhat, amelyek az adatforrás típusától függően változnak.

A varázsló belsőleg a következő definíciókat is beállítja, amelyek csak a létrehozás után láthatók az indexelőben:

Következő lépések

A varázsló előnyeinek és korlátainak megértéséhez a legjobb módszer, ha végiglépked rajta. Az alábbi rövid útmutató ismerteti az egyes lépéseket.