Rövid útmutató: Képességkészlet létrehozása az Azure Portalon

Ebben a rövid útmutatóban megtudhatja, hogyan adja hozzá az Azure AI Search egy képességkészlete az optikai karakterfelismerést (OCR), a képelemzést, a nyelvfelismerést, a szövegfordítást és az entitásfelismerést a szöveges kereshető tartalom keresési indexben való létrehozásához.

Az Adatok importálása varázslót az Azure Portalon futtatva olyan készségeket alkalmazhat, amelyek szöveges tartalmakat hoznak létre és alakítanak át az indexelés során. A bemenet a nyers adatok, általában blobok az Azure Storage-ban. A kimenet egy kereshető index, amely AI által létrehozott képszöveget, képaláírás és entitásokat tartalmaz. A létrehozott tartalom lekérdezhető a portálon a Search Explorer használatával.

A felkészüléshez hozzon létre néhány erőforrást, és töltsön fel mintafájlokat a varázsló futtatása előtt.

Előfeltételek

A kezdés előtt a következő előfeltételek teljesülnek:

Megjegyzés:

Ez a rövid útmutató Azure AI-szolgáltatásokat használ az AI-hoz. Mivel a számítási feladat olyan kicsi, az Azure AI-szolgáltatások a színfalak mögött leképezve akár 20 tranzakció ingyenes feldolgozására is használhatóak. Ezt a gyakorlatot anélkül végezheti el, hogy többszolgáltatásos Azure AI-erőforrást kellene létrehoznia.

Az adatok beállítása

A következő lépésekben állítson be egy blobtárolót az Azure Storage-ban heterogén tartalomfájlok tárolására.

  1. Töltsön le mintaadatokat, amelyek különböző típusú fájlok kis készletéből állnak. Bontsa ki a fájlokat.

  2. Sign in to the Azure portal with your Azure account.

  3. Hozzon létre egy Azure Storage-fiókot , vagy keressen egy meglévő fiókot.

    • A sávszélesség-díjak elkerülése érdekében válassza ki ugyanazt a régiót, mint az Azure AI Search.

    • Válassza ki a StorageV2 (általános célú V2) elemet.

  4. Nyissa meg az Azure Storage-lapot az Azure Portalon, és hozzon létre egy tárolót. Az alapértelmezett hozzáférési szintet használhatja.

  5. A Tárolóban válassza a Feltöltés lehetőséget a mintafájlok feltöltéséhez. Figyelje meg, hogy számos tartalomtípussal rendelkezik, beleértve azokat a képeket és alkalmazásfájlokat, amelyek nem kereshetők teljes szöveges formátumban a natív formátumukban.

    Screenshot of source files in Azure Blob Storage.

Most már továbbléphet az Adatok importálása varázslóra.

Az Adatok importálása varázsló futtatása

  1. Sign in to the Azure portal with your Azure account.

  2. Keresse meg a keresőszolgáltatást , és az Áttekintés lapon válassza az Adatok importálása parancsot a parancssávon a kereshető tartalom létrehozásához négy lépésben.

    Screenshot of the Import data command.

1. lépés: Adatforrás létrehozása

  1. Az adatok Csatlakozás válassza az Azure Blob Storage lehetőséget.

  2. Válasszon ki egy meglévő kapcsolatot a tárfiókhoz, és válassza ki a létrehozott tárolót. Adjon nevet az adatforrásnak, a többi beállításnál pedig használja az alapértelmezett értékeket.

    Screenshot of the data source definition page.

    Folytassa a következő oldallal.

Ha "Hiba észleli az indexsémát az adatforrásból", a varázslót indító indexelő nem tud csatlakozni az adatforráshoz. Valószínűleg az adatforrás biztonsági védelemmel rendelkezik. Próbálkozzon az alábbi megoldásokkal, majd futtassa újra a varázslót.

Biztonsági funkció Megoldás
Az erőforráshoz Azure-szerepkörök szükségesek, vagy a hozzáférési kulcsok le vannak tiltva Csatlakozás megbízható szolgáltatásként vagy felügyelt identitással való kapcsolódáshoz
Az erőforrás IP-tűzfal mögött található Bejövő szabály létrehozása a kereséshez és az Azure Portalhoz
Az erőforrás privát végpontkapcsolatot igényel Csatlakozás privát végponton keresztül

2. lépés: Kognitív képességek hozzáadása

Ezután konfigurálja az AI-bővítést az OCR, a képelemzés és a természetes nyelvi feldolgozás meghívásához.

  1. Ebben a rövid útmutatóban az ingyenes Azure AI-szolgáltatási erőforrást használjuk. A mintaadatok 14 fájlból állnak, így az Azure AI-szolgáltatásokban 20 tranzakció ingyenes kiosztása elegendő ehhez a rövid útmutatóhoz.

    Screenshot of the Attach Azure AI services tab.

  2. Bontsa ki az Add enrichments and make six selections (Bővítés hozzáadása ) elemet.

    Engedélyezze az OCR-nek, hogy képelemzési készségeket adjon hozzá a varázsló oldalához.

    Válasszon entitásfelismerést (személyek, szervezetek, helyek) és képelemzési képességeket (címkék, képaláírás).

    Screenshot of the skillset definition page.

    Folytassa a következő oldallal.

3. lépés: Az index konfigurálása

Az index tartalmazza a kereshető tartalmat, és az Adatok importálása varázsló általában az adatforrás mintavételezésével hozza létre a sémát. Ebben a lépésben tekintse át a létrehozott sémát, és esetleg módosítsa a beállításokat.

Ebben a rövid útmutatóban a varázsló észszerű alapértelmezett beállításokat határoz meg:

  • Az alapértelmezett mezők a meglévő blobok metaadat-tulajdonságain, valamint a bővítési kimenet új mezőien alapulnak (például people, organizations, locations). Az adattípusok a metaadatokból és az adatmintavételből következtetnek.

  • Az alapértelmezett dokumentumkulcs metadata_storage_path (azért van kijelölve, mert a mező egyedi értékeket tartalmaz).

  • Az alapértelmezett attribútumok lekérdezhetők és kereshetők. A kereshető funkció lehetővé teszi a teljes szöveges keresést egy mezőben. A beolvasható azt jelenti, hogy a mezőértékek visszaadhatók az eredményekben. A varázsló feltételezi, hogy lekért és kereshető mezőket szeretne, mert egy készségkészleten keresztül hozta létre őket. Válassza a Szűrhető lehetőséget, ha mezőket szeretne használni egy szűrőkifejezésben.

    Screenshot of the index definition page.

A mező lekérésesként való megjelölése nem jelenti azt, hogy a mezőnek szerepelnie kell a keresési eredményekben. A keresési eredmények összetételét a választó lekérdezési paraméterrel szabályozhatja, így megadhatja, hogy mely mezőket vegye fel.

Folytassa a következő oldallal.

4. lépés: Az indexelő konfigurálása

Az indexelő vezérli az indexelési folyamatot. Megadja az adatforrás nevét, a célindexet és a végrehajtás gyakoriságát. Az Adatok importálása varázsló több objektumot hoz létre, köztük egy indexelőt, amelyet újra és újra futtathat.

  1. Az Indexelő lapon fogadja el az alapértelmezett nevet, és válassza az Egyszer lehetőséget.

    Screenshot of the indexer definition page.

  2. Válassza a Küldés lehetőséget az indexelő létrehozásához és egyidejű futtatásához.

Állapotfigyelés

A bal oldali navigációs panelen válassza az Indexelők lehetőséget az állapot figyeléséhez, majd válassza ki az indexelőt. A készségalapú indexelés hosszabb időt vesz igénybe, mint a szöveges indexelés, különösen az OCR és a képelemzés.

Screenshot of the indexer status page.

A végrehajtási állapot részleteinek megtekintéséhez válassza a Sikeres (vagy Sikertelen) lehetőséget a végrehajtás részleteinek megtekintéséhez.

Ebben a bemutatóban néhány figyelmeztetés jelenik meg: "Could not execute skill because one or more skill input was invalid." Azt jelzi, hogy az adatforrásban lévő PNG-fájlok nem adnak szöveges bemenetet az Entity Recognitionhez. Ez a figyelmeztetés azért fordul elő, mert a felsőbb rétegbeli OCR-képesség nem ismer fel szöveget a képen, ezért nem tudott szöveges bemenetet adni az alsóbb rétegbeli entitásfelismerési képességnek.

A figyelmeztetések gyakoriak a készségkészletek végrehajtásában. Ahogy megismerkedik azzal, hogy a készségek hogyan iterálnak az adatokon, észreveheti a mintákat, és megtanulhatja, hogy mely figyelmeztetéseket érdemes figyelmen kívül hagyni.

Lekérdezés a Keresési ablakban

Az index létrehozása után a Kereséskezelővel adja vissza a találatokat.

  1. A bal oldalon válassza az Indexek lehetőséget, majd az indexet. A Keresőböngésző az első lapon található.

  2. Adjon meg egy keresési sztringet az index lekérdezéséhez, például satya nadella. A keresősáv kulcsszavakat, idézőjelbe foglalt kifejezéseket és operátorokat ("Satya Nadella" +"Bill Gates" +"Steve Ballmer") fogad el.

Az eredmények részletes JSON-ként jelennek meg, amelyek nehezen olvashatók, különösen nagy méretű dokumentumokban. Az eszközben való kereséshez néhány tipp a következő technikákat tartalmazza:

  • Váltson JSON-nézetre az alakzat által eredményként megadott paraméterek megadásához.

  • Hozzáadás select az eredmények mezőinek korlátozásához.

  • Adja hozzá count a találatok számának megjelenítéséhez.

  • A CTRL-F billentyűkombinációval megkeresheti a JSON-ban adott tulajdonságokat vagy kifejezéseket.

    Screenshot of the Search explorer page.

Íme néhány JSON, amit beilleszthet a nézetbe:

{
"search": "\"Satya Nadella\" +\"Bill Gates\" +\"Steve Ballmer\"",
"count": true,
"select": "content, people"
}

Tipp.

A lekérdezési sztringek megkülönböztetik a kis- és nagybetűket, ezért ha "ismeretlen mező" üzenetet kap, jelölje be a Mezők vagy indexdefiníció (JSON) jelölőnégyzetet a név és a kis- és nagybetűk ellenőrzéséhez.

Legfontosabb ismeretek

Most létrehozta az első készségkészletet, és megismerte a képességalapú indexelés alapvető lépéseit.

Reméljük, hogy a legfontosabb fogalmak közé tartoznak a függőségek. A képességkészlet egy indexelőhöz van kötve, az indexelők pedig azure-beliek és forrásspecifikusak. Bár ez a rövid útmutató az Azure Blob Storage-t használja, más Azure-adatforrások is lehetségesek. További információ: Indexelők az Azure AI Searchben.

Egy másik fontos fogalom, hogy a készségek tartalomtípusokon keresztül működnek, és heterogén tartalommal végzett munka során bizonyos bemenetek kimaradnak. Emellett a nagy méretű fájlok vagy mezők meghaladhatják a szolgáltatási szint indexelőkorlátait. Az események bekövetkezésekor általában figyelmeztetések jelennek meg.

A kimenet egy keresési indexhez lesz irányítva, és az indexelés során létrehozott név-érték párok és az index egyes mezői közötti leképezés történik. A varázsló belsőleg beállít egy bővítőfát , és meghatároz egy készségkészletet, amely meghatározza a műveletek sorrendjét és az általános folyamatot. Ezek a lépések rejtve vannak a varázslóban, de amikor elkezd kódokat írni, ezek a fogalmak fontossá válnak.

Végül megtanulta, hogy az index lekérdezésével ellenőrizheti a tartalmat. Végül az Azure AI Search egy kereshető index, amelyet az egyszerű vagy teljesen kiterjesztett lekérdezési szintaxissal kérdezhet le. A bővített mezőket tartalmazó index ugyanúgy működik, akár az összes többi. Ha standard vagy egyéni elemzőket, pontozási profilokat, szinonimákat, arculati navigációt, geokeresést vagy bármely más Azure AI Search szolgáltatást szeretne beépíteni, ezt mindenképpen megteheti.

Clean up resources

Ha a saját előfizetésében dolgozik, érdemes az egyes projektek végén eldöntenie, hogy szüksége lesz-e még a létrehozott erőforrásokra. A továbbra is futó erőforrások költségekkel járhatnak. Az erőforrásokat törölheti egyesével, vagy az erőforráscsoport törlésével eltávolíthatja a benne lévő összes erőforrást is.

A portálon a bal oldali navigációs panel Minden erőforrás vagy Erőforráscsoport hivatkozásával kereshet és kezelhet erőforrásokat.

Ha ingyenes szolgáltatást használ, ne feledje, hogy három indexre, indexelőre és adatforrásra korlátozódik. A portálon törölheti az egyes elemeket, hogy a korlát alatt maradjon.

További lépések

Képességkészleteket a portál, a .NET SDK vagy a REST API használatával hozhat létre. A tudás bővítéséhez próbálja ki a REST API-t a Postman és további mintaadatok használatával.