Průvodce importem dat ve službě Azure AI Search

Průvodce importem dat na webu Azure Portal vytvoří více objektů používaných k indexování a rozšiřování AI ve vyhledávací službě. Pokud s Azure AI Search začínáte, je to jedna z nejvýkonnějších funkcí, které máte k dispozici. S minimálním úsilím můžete vytvořit kanál indexování nebo rozšiřování, který provádí většinu funkcí služby Azure AI Search.

Pokud používáte průvodce pro testování konceptu, tento článek vysvětluje interní fungování průvodce, abyste ho mohli efektivněji používat.

Tento článek není krok za krokem. Nápovědu k použití průvodce s integrovanými ukázkovými daty najdete v rychlém startu : Vytvoření indexu vyhledávání nebo rychlého startu: Vytvoření překladu textu a sady dovedností entit.

Spuštění průvodce

Na webu Azure Portal otevřete stránku vyhledávací služby z řídicího panelu nebo vyhledejte službu v seznamu služeb. Na stránce Přehled služby v horní části vyberte Importovat data.

Screenshot of the Import data command

Průvodce se otevře v okně prohlížeče, takže máte více místa na práci.

Můžete také spustit import dat z jiných služeb Azure, včetně Azure Cosmos DB, Azure SQL Database, SQL Managed Instance a Azure Blob Storage. V levém navigačním podokně na stránce přehledu služby vyhledejte přidání služby Azure AI Search.

Objekty vytvořené průvodcem

Průvodce vypíše objekty v následující tabulce. Po vytvoření objektů můžete zkontrolovat jejich definice JSON na portálu nebo je volat z kódu.

Objekt Popis
Indexer Objekt konfigurace určující zdroj dat, cílový index, volitelnou sadu dovedností, volitelný plán a volitelné nastavení konfigurace pro předání chyb a kódování base-64.
Zdroj dat Zachová informace o připojení k podporovanému zdroji dat v Azure. Objekt zdroje dat se používá výhradně s indexery.
Index Fyzická datová struktura používaná pro fulltextové vyhledávání a další dotazy.
Skillset Nepovinné. Kompletní sada instrukcí pro manipulaci, transformaci a tvarování obsahu, včetně analýzy a extrahování informací ze souborů obrázků. Pokud objem práce spadá pod limit 20 transakcí na indexer za den, musí sada dovedností obsahovat odkaz na prostředek azure AI s více službami, který poskytuje rozšiřování.
Úložiště znalostí Nepovinné. Ukládá výstup z kanálu rozšiřování AI v tabulkách a objektech blob ve službě Azure Storage pro účely nezávislé analýzy nebo podřízeného zpracování.

Výhody a omezení

Před napsáním jakéhokoli kódu můžete použít průvodce pro testování prototypů a testování konceptu. Průvodce se připojí k externím zdrojům dat, ukázkou dat vytvoří počáteční index a pak naimportuje data jako dokumenty JSON do indexu ve službě Azure AI Search.

Pokud vyhodnocujete sady dovedností, průvodce zpracuje všechna mapování výstupních polí a přidá pomocné funkce pro vytváření použitelných objektů. Rozdělení textu se přidá, pokud zadáte režim analýzy. Sloučení textu se přidá, pokud jste zvolili analýzu obrázků, aby průvodce mohl znovu sloučit textové popisy s obsahem obrázku. Dovednosti shaperu přidané pro podporu platných projekcí, pokud jste zvolili možnost úložiště znalostí. Všechny výše uvedené úkoly mají křivku učení. Pokud s rozšiřováním začínáte, můžete mít tyto kroky zvládnuty, abyste mohli měřit hodnotu dovednosti, aniž byste museli investovat mnoho času a úsilí.

Vzorkování je proces, kterým je odvozeno schéma indexu a má určitá omezení. Po vytvoření zdroje dat průvodce vybere náhodný vzorek dokumentů a rozhodne, které sloupce jsou součástí zdroje dat. Ne všechny soubory se čtou, protože to může trvat hodiny u velmi velkých zdrojů dat. Při výběru dokumentů, zdrojových metadat, jako je název pole nebo typ, se používá k vytvoření kolekce polí ve schématu indexu. V závislosti na složitosti zdrojových dat možná budete muset upravit počáteční schéma pro přesnost nebo prodloužit jeho úplnost. Změny můžete provést přímo na stránce definice indexu.

Obecně platí, že výhody použití průvodce jsou jasné: pokud jsou splněny požadavky, můžete během několika minut vytvořit prototyp dotazovatelného indexu. Některé složitosti indexování, například serializace dat jako dokumentů JSON, zpracovává průvodce.

Průvodce není bez omezení. Omezení se shrnují takto:

  • Průvodce nepodporuje iteraci ani opakované použití. Každý průchod průvodce vytvoří novou konfiguraci indexu, sady dovedností a indexeru. V průvodci je možné uchovávat a opakovaně používat pouze zdroje dat. Pokud chcete upravit nebo upřesnit jiné objekty, odstraňte objekty a začněte znovu, nebo pomocí rozhraní REST API nebo sady .NET SDK upravte struktury.

  • Zdrojový obsah se musí nacházet v podporovaném zdroji dat.

  • Vzorkování je nad podmnožinou zdrojových dat. U velkých zdrojů dat může průvodce vynechat pole. V případě nedostatečného vzorkování možná budete muset schéma rozšířit nebo opravit odvozené datové typy.

  • Rozšiřování AI, jak je zveřejněné na portálu, je omezené na podmnožinu předdefinovaných dovedností.

  • Úložiště znalostí, které může průvodce vytvořit, je omezené na několik výchozích projekcí a používá výchozí zásady vytváření názvů. Pokud chcete přizpůsobit názvy nebo projekce, budete muset vytvořit úložiště znalostí prostřednictvím rozhraní REST API nebo sad SDK.

  • Veřejný přístup ke všem sítím musí být povolený v podporovaném zdroji dat při použití průvodce, protože portál nebude mít během nastavování přístup ke zdroji dat, pokud je veřejný přístup zakázaný. To znamená, že pokud má váš zdroj dat povolenou bránu firewall nebo jste nastavili sdílené privátní propojení, musíte je zakázat, spustit průvodce importem dat a potom ho povolit po dokončení instalace průvodce. Pokud to není možnost, můžete vytvořit zdroj dat Azure AI Search, indexer, sadu dovedností a index prostřednictvím rozhraní REST API nebo sad SDK.

Workflow

Průvodce je uspořádaný do čtyř hlavních kroků:

  1. Připojení k podporovanému zdroji dat Azure.

  2. Vytvořte schéma indexu odvozené vzorkováním zdrojových dat.

  3. Volitelně můžete přidat rozšíření AI pro extrakci nebo generování obsahu a struktury. Vstupy pro vytvoření úložiště znalostí se shromažďují v tomto kroku.

  4. Spuštěním průvodce vytvořte objekty, načtěte data, nastavte plán a další možnosti konfigurace.

Pracovní postup je kanál, takže je jedním ze způsobů. Průvodce nemůžete použít k úpravě objektů, které byly vytvořeny, ale pro povolené aktualizace můžete použít jiné nástroje portálu, jako je návrhář indexu nebo indexer nebo editory JSON.

Konfigurace zdroje dat v průvodci

Průvodce importem dat se připojí k externímu podporovanému zdroji dat pomocí interní logiky poskytované indexery služby Azure AI Search, které jsou vybaveny vzorkováním zdroje, čtením metadat, bezva dokumenty ke čtení obsahu a struktury a serializací obsahu jako JSON pro následný import do služby Azure AI Search.

Můžete vložit připojení k podporovanému zdroji dat v jiném předplatném nebo oblasti, ale výběr existujícího připojení je vymezený na aktivní předplatné.

Screenshot of the Connect to your data tab.

Ne všechny zdroje dat ve verzi Preview jsou zaručené, že budou v průvodci dostupné. Vzhledem k tomu, že každý zdroj dat má potenciál zavést další změny podřízené, zdroj dat ve verzi Preview se přidá do seznamu zdrojů dat pouze v případě, že plně podporuje všechna prostředí v průvodci, jako je definice sady dovedností a odvození schématu indexu.

Importovat můžete pouze z jedné tabulky, zobrazení databáze nebo ekvivalentní datové struktury, ale struktura může zahrnovat hierarchické nebo vnořené podstruktury. Další informace naleznete v tématu Modelování složitých typů.

Konfigurace sady dovedností v průvodci

Konfigurace sady dovedností se vyskytuje po definici zdroje dat, protože typ zdroje dat bude informovat o dostupnosti určitých předdefinovaných dovedností. Konkrétně pokud indexujete soubory ze služby Blob Storage, volba režimu analýzy těchto souborů určí, jestli je analýza mínění dostupná.

Průvodce přidá dovednosti, které zvolíte, ale zároveň přidá další dovednosti, které jsou nezbytné pro dosažení úspěšného výsledku. Pokud například zadáte úložiště znalostí, průvodce přidá dovednost Shaper pro podporu projekcí (nebo fyzických datových struktur).

Sady dovedností jsou volitelné a v dolní části stránky je tlačítko, které vás přeskočí, pokud nechcete, aby se rozšiřování umělé inteligence střídá.

Konfigurace schématu indexu v průvodci

Průvodce pro ukázku zdroje dat zjistí pole a typ pole. V závislosti na zdroji dat může také nabízet pole pro indexování metadat.

Vzhledem k tomu, že vzorkování je nepřesné cvičení, projděte si index s následujícími aspekty:

  1. Je seznam polí přesný? Pokud zdroj dat obsahuje pole, která se nevyzvedla v vzorkování, můžete ručně přidat všechna nová pole, která vzorkování zmeškala, a odebrat všechna, která nepřidají hodnotu do vyhledávacího prostředí nebo která se nebudou používat ve výrazu filtru nebo v bodovacím profilu.

  2. Je datový typ vhodný pro příchozí data? Azure AI Search podporuje datové typy datového modelu entity (EDM). V případě dat Azure SQL je k dispozici mapový graf , který obsahuje ekvivalentní hodnoty. Další informace najdete v tématu Mapování a transformace polí.

  3. Máte jedno pole, které může sloužit jako klíč? Toto pole musí být Edm.string a musí jednoznačně identifikovat dokument. U relačních dat je možné je namapovat na primární klíč. U objektů blob to může být .metadata-storage-path Pokud hodnoty polí obsahují mezery nebo pomlčky, je nutné nastavit možnost Klíč kódování Base-64 v kroku Vytvořit indexer v části Upřesnit možnosti, aby se potlačí kontrola ověření těchto znaků.

  4. Nastavte atributy, abyste zjistili, jak se toto pole používá v indexu.

    S tímto krokem si dejte čas, protože atributy určují fyzický výraz polí v indexu. Pokud chcete později změnit atributy i programově, budete téměř vždy muset index vypustit a znovu sestavit. Základní atributy, jako je Prohledávatelné a Načístelné, mají zanedbatelný dopad na úložiště. Povolenífiltrůch

    • Umožňuje prohledávat fulltextové vyhledávání. Každé pole použité v dotazech volného formuláře nebo ve výrazech dotazu musí mít tento atribut. Invertované indexy se vytvoří pro každé pole, které označíte jako prohledávatelné.

    • Načtení vrátí pole ve výsledcích hledání. Každé pole, které poskytuje obsah výsledkům hledání, musí mít tento atribut. Nastavení tohoto pole nemá vliv na velikost indexu.

    • Filtrovatelné umožňuje odkaz na pole ve výrazech filtru. Každé pole použité ve výrazu $filter musí mít tento atribut. Výrazy filtru jsou přesné shody. Vzhledem k tomu, že textové řetězce zůstávají nedotčené, je potřeba více úložiště pro doslovný obsah.

    • Fasetová tabulka umožňuje pole pro fasetové navigace. Jako facetable lze označit pouze pole označená jako filtrovatelná.

    • Řazení umožňuje použití pole v řazení. Každé pole použité ve výrazu $Orderby musí mít tento atribut.

  5. Potřebujete lexikální analýzu? U polí Edm.string, která jsou prohledávatelná, můžete nastavit Analyzátor , pokud chcete indexování a dotazování rozšířeného jazyka.

    Výchozí hodnota je Standard Lucene , ale pokud chcete použít analyzátor Microsoftu pro pokročilé lexikální zpracování, jako je například řešení nepravidelných podstatných jmen a sloves. Na portálu je možné zadat pouze analyzátory jazyka. Použití vlastního analyzátoru nebo analyzátoru jiného jazyka, jako je klíčové slovo, vzor atd., je nutné provádět programově. Další informace o analyzátorech najdete v tématu Přidání analyzátorů jazyka.

  6. Potřebujete funkci pro psaní textu ve formě automatického dokončování nebo navrhovaných výsledků? Zaškrtněte políčko Navrhnout, pokud chcete u vybraných polí povolit návrhy dotazů pro psaní a automatické dokončování. Návrhy přidají do počtu tokenizovaných termínů v indexu, a proto spotřebovávají více úložiště.

Konfigurace indexeru v průvodci

Poslední stránka průvodce shromažďuje uživatelské vstupy pro konfiguraci indexeru. Můžete zadat plán a nastavit další možnosti, které se budou lišit podle typu zdroje dat.

Průvodce také interně nastaví následující definice, které nejsou v indexeru viditelné, dokud se nevytvořil:

Další kroky

Nejlepším způsobem, jak porozumět výhodám a omezením průvodce, je projít si ho. Jednotlivé kroky jsou vysvětleny v následujícím rychlém startu.