Rozšiřování umělé inteligence v Azure Cognitive Search

Obohacení umělé inteligence je aplikace modelů strojového učení nad obsahem, který není v nezpracované podobě plně prohledávatelný. Prostřednictvím rozšiřování, analýzy a odvozování se používají k vytváření prohledávatelného obsahu a struktury, kde dříve neexistovala žádná.

Vzhledem k tomu, že Azure Cognitive Search je řešení fulltextového vyhledávání, účelem rozšíření AI je zlepšit nástroj vašeho obsahu ve scénářích souvisejících s vyhledáváním:

  • Překlad a rozpoznávání jazyka pro vícejazyčné vyhledávání
  • Rozpoznávání entit extrahuje lidi, místa a další entity z velkých bloků textu.
  • Extrakce klíčových frází identifikuje a pak vypíše důležité termíny.
  • Optické rozpoznávání znaků (OCR) rozpozná vytištěný a ručně psaný text v binárních souborech.
  • Analýza obrázků popisuje obsah obrázku a vypíše popisy jako prohledávatelná textová pole.

Rozšíření AI je rozšíření kanálu indexeru. Kanál rozšíření má všechny komponenty kanálu indexeru (indexer, zdroj dat, indexer) a sadu dovedností , která určuje kroky atomických rozšiřování.

Následující diagram znázorňuje průběh rozšiřování umělé inteligence:

Diagram kanálu rozšiřování

Import je prvním krokem. Indexer se zde připojí ke zdroji dat a načte obsah (dokumenty) do vyhledávací služby. Azure Blob Storage je nejběžnějším prostředkem používaným ve scénářích rozšiřování umělé inteligence, ale jakýkoli podporovaný zdroj dat může poskytovat obsah.

Obohatit & Index pokrývá většinu kanálu rozšíření AI:

  • Rozšiřování začíná, když indexer "praskne dokumenty" a extrahuje obrázky a text. Druh zpracování, ke kterému dojde dál, bude záviset na vašich datech a na tom, které dovednosti jste přidali do sady dovedností. Pokud máte obrázky, můžete je předat dovednostem, které provádějí zpracování obrázků. Textový obsah je zařazen do fronty pro zpracování textu a přirozeného jazyka. Interní dovednosti vytvářejí "obohacený dokument" , který shromažďuje transformace během jejich výskytu.

  • Obohacený obsah se generuje během provádění sady dovedností a je dočasný, pokud ho neuložíte. Mezipaměť rozšíření můžete povolit, aby se zachovaly praskané dokumenty a výstupy dovedností pro následné opakované použití během budoucích spuštění sady dovedností.

  • Aby indexer získal obsah do indexu vyhledávání, musí mít informace o mapování pro odesílání rozšířeného obsahu do cílového pole. Mapování polí (explicitní nebo implicitní) nastavují cestu k datům ze zdrojových dat na index vyhledávání. Mapování výstupních polí nastavují cestu k datům z obohacených dokumentů na index.

  • Indexování je proces, kdy se nezpracovaný a obohacený obsah ingestuje do fyzických datových struktur indexu vyhledávání (jeho souborů a složek). V tomto kroku dochází k lexikální analýze a tokenizaci.

Průzkum je posledním krokem. Výstup je vždy index vyhledávání , který můžete dotazovat z klientské aplikace. Výstupem může být úložiště znalostí skládající se z objektů blob a tabulek ve službě Azure Storage, ke kterým se přistupuje prostřednictvím nástrojů pro zkoumání dat nebo podřízených procesů. Pokud vytváříte úložiště znalostí, projekce určují cestu k datům pro obohacený obsah. Stejný obohacený obsah se může objevit v indexech i úložištích znalostí.

Kdy používat rozšiřování umělé inteligence

Rozšíření je užitečné v případě, že nezpracovaný obsah je nestrukturovaný text, obsah obrázku nebo obsah, který potřebuje rozpoznávání jazyka a překlad. Použití umělé inteligence prostřednictvím integrovaných dovedností může tento obsah odemknout pro fulltextové vyhledávání a aplikace pro datové vědy.

Můžete také vytvořit vlastní dovednosti pro zajištění externího zpracování. Opensourcový, třetí strana nebo kód první strany je možné integrovat do kanálu jako vlastní dovednost. Klasifikační modely, které identifikují určité charakteristiky různých typů dokumentů, spadají do této kategorie, ale jakýkoli externí balíček, který přidává hodnotu k vašemu obsahu, lze použít.

Případy použití pro integrované dovednosti

Integrované dovednosti jsou založené na rozhraní API služeb Cognitive Services: Počítačové zpracování obrazu a jazykové službě. Pokud není vstup obsahu malý, neočekávejte , že připojíte fakturovatelný prostředek služeb Cognitive Services , který bude spouštět větší úlohy.

Sada dovedností sestavená pomocí integrovaných dovedností je vhodná pro následující scénáře aplikací:

Případy použití pro vlastní dovednosti

Vlastní dovednosti provádějí externí kód, který poskytujete. Vlastní dovednosti můžou podporovat složitější scénáře, jako je rozpoznávání formulářů nebo rozpoznávání vlastních entit pomocí modelu, který poskytnete a zabalíte do webového rozhraní vlastních dovedností. Mezi příklady vlastních dovedností patří:

Vlastní dovednosti nejsou vždy složité. Pokud máte například existující balíček, který poskytuje porovnávání vzorů nebo model klasifikace dokumentů, můžete ho zabalit do vlastní dovednosti.

Ukládání výstupu

V Azure Cognitive Search indexer uloží výstup, který vytvoří. Jedno spuštění indexeru může vytvořit až tři datové struktury, které obsahují obohacený a indexovaný výstup.

Úložiště dat Vyžadováno Umístění Popis
prohledávatelný index Vyžadováno Služba Search Používá se pro fulltextové vyhledávání a další formuláře dotazů. Určení indexu je požadavek indexeru. Obsah indexu je naplněný výstupy dovedností a všechna zdrojová pole, která jsou namapovaná přímo na pole v indexu.
úložiště znalostí Volitelné Azure Storage Používá se pro podřízené aplikace, jako je dolování znalostí nebo datové vědy. Úložiště znalostí je definováno v sadě dovedností. Její definice určuje, jestli se vaše rozšířené dokumenty projektují jako tabulky nebo objekty (soubory nebo objekty blob) ve službě Azure Storage.
mezipaměť rozšíření Volitelné Azure Storage Používá se k ukládání do mezipaměti pro opakované použití v následných spuštěních sady dovedností. Mezipaměť ukládá importovaný, nezpracovaný obsah (prasknuté dokumenty). Ukládá také rozšířené dokumenty vytvořené během provádění sady dovedností. Ukládání do mezipaměti je užitečné zejména v případě, že používáte analýzu obrázků nebo OCR a chcete se vyhnout času a nákladům na opětovné zpracování souborů obrázků.

Indexy a úložiště znalostí jsou zcela nezávislé na sobě. Pokud je jediným cílem úložiště znalostí, musíte index připojit, abyste splnili požadavky indexeru, můžete index po naplnění ignorovat. Vyhněte se jeho odstranění. Pokud chcete znovu spustit indexer a sadu dovedností, budete potřebovat index, aby indexer mohl běžet.

Zkoumání obsahu

Po definování a načtení indexu vyhledávání nebo úložiště znalostí můžete prozkoumat jeho data.

Dotazování indexu vyhledávání

Spusťte dotazy pro přístup k rozšířenému obsahu vygenerovaném kanálem. Index je stejný jako jakýkoli jiný, který byste mohli vytvořit pro Azure Cognitive Search: můžete doplnit analýzu textu vlastními analyzátory, vyvolat přibližné vyhledávací dotazy, přidat filtry nebo experimentovat s bodovacími profily pro vyladění relevance vyhledávání.

Použití nástrojů pro zkoumání dat ve znalostním úložišti

Ve službě Azure Storage může úložiště znalostí předpokládat následující formuláře: kontejner objektů blob dokumentů JSON, kontejner objektů blob objektů obrázků nebo tabulky ve službě Table Storage. K přístupu k obsahu můžete použít Průzkumník služby Storage, Power BI nebo jakoukoli aplikaci, která se připojuje ke službě Azure Storage.

  • Kontejnerobjektůch objektu blob zachytává v celém dokumentu, což je užitečné, pokud vytváříte informační kanál do jiných procesů.

  • Tabulka je užitečná, pokud potřebujete řezy obohacených dokumentů nebo pokud chcete zahrnout nebo vyloučit konkrétní části výstupu. Pro analýzu v Power BI jsou tabulky doporučeným zdrojem dat pro zkoumání a vizualizaci dat v Power BI.

Dostupnost a ceny

Rozšíření je dostupné v oblastech, ve kterých jsou služby Azure Cognitive Services. Můžete zkontrolovat dostupnost rozšiřování produktů Azure dostupných podle oblastí . Rozšíření je dostupné ve všech oblastech kromě:

  • Austrálie – jihovýchod
  • Čína – sever 2
  • Německo – středozápad

Fakturace se řídí cenovým modelem průběžných plateb. Náklady na používání předdefinovaných dovedností se předávají, když je v sadě dovedností specifikovaný klíč služby Cognitive Services ve více oblastech. K extrakci obrázků jsou spojené také náklady, jak je měřeno službou Cognitive Search. Extrakce textu a dovednosti nástroje ale nejsou fakturovatelné. Další informace najdete v tématu Jak se vám účtují poplatky za Azure Cognitive Search.

Kontrolní seznam: Typický pracovní postup

Kanál rozšiřování se skládá z indexerů , které mají sady dovedností. Po indexování můžete dotazovat index a ověřit výsledky.

Začněte podmnožinou dat v podporovaném zdroji dat. Návrh indexeru a sad dovedností je iterativní proces. Práce je rychlejší s malou reprezentativní sadou dat.

  1. Vytvořte zdroj dat , který určuje připojení k datům.

  2. Vytvořte sadu dovedností. Pokud není projekt malý, budete chtít připojit prostředek služeb Cognitive Services. Pokud vytváříte úložiště znalostí, definujte ho v sadě dovedností.

  3. Vytvořte schéma indexu , které definuje index vyhledávání.

  4. Vytvořte a spusťte indexer , který spojuje všechny výše uvedené komponenty. Tento krok načte data, spustí sadu dovedností a načte index.

    Indexer je také místo, kde zadáte mapování polí a mapování výstupních polí, která nastaví cestu k datům do indexu vyhledávání.

    Volitelně můžete povolit ukládání do mezipaměti rozšíření v konfiguraci indexeru. Tento krok vám umožní později znovu použít existující rozšíření.

  5. Spuštěním dotazů vyhodnoťte výsledky nebo spusťte ladicí relaci a projděte si případné problémy se sadou dovedností.

Pokud chcete zopakovat některý z výše uvedených kroků, resetujte indexer před jeho spuštěním. Nebo odstraňte a znovu vytvořte objekty při každém spuštění (doporučujeme, pokud používáte úroveň Free). Pokud jste povolili ukládání do mezipaměti, indexer se stáhne z mezipaměti, pokud se data nezmění ve zdroji, a pokud vaše úpravy kanálu nenulují mezipaměť.

Další kroky