Principy komponent vyhledávání
Řešení AI Search se skládá z několika komponent, z nichž každá hraje důležitou roli v procesu extrakce, rozšiřování, indexování a vyhledávání dat.
Zdroj dat
Většina vyhledávacích řešení začíná zdrojem dat obsahujícím data, která chcete prohledat. Azure AI Search podporuje více typů zdrojů dat, mezi které patří:
- Nestrukturované soubory v kontejnerech úložiště objektů blob v Azure
- Tabulky ve službě Azure SQL Database
- Dokumenty ve službě Cosmos DB
Azure AI Search může načíst data z těchto zdrojů dat pro indexování.
Aplikace můžou také odesílat data JSON přímo do indexu, aniž by je načítá z existujícího úložiště dat.
Sada dovedností
V základním řešení vyhledávání můžete indexovat data extrahovaná ze zdroje dat. Informace, které je možné extrahovat, závisí na zdroji dat. Například při indexování dat v databázi mohou být pole v databázových tabulkách extrahována; nebo při indexování sady dokumentů mohou být spolu s textovým obsahem dokumentu extrahována metadata souborů, jako je název souboru, datum změny, velikost a autor.
Základní vyhledávací řešení, které indexuje hodnoty dat extrahované přímo ze zdroje dat, může být užitečné, ale očekávání moderních uživatelů aplikací můžou vyžadovat bohatší přehled o datech. Ve službě Azure AI Search můžete v rámci procesu indexování použít dovednosti umělé inteligence (AI) a rozšířit tak zdrojová data o nové informace, které je možné mapovat na pole indexu. Dovednosti používané indexerem jsou zapouzdřeny v sadě dovedností, která definuje kanál rozšiřování, ve kterém každý krok vylepšuje zdrojová data přehledy získanými konkrétní dovedností AI. Mezi příklady informací, které lze extrahovat pomocí dovednosti AI, patří:
- Jazyk, ve kterém je dokument napsán.
- Klíčové fráze, které vám můžou pomoct určit hlavní motivy nebo témata probíraná v dokumentu.
- Skóre mínění, které kvantifikuje, jak pozitivní nebo negativní je dokument.
- Konkrétní místa, lidé, organizace nebo orientační body uvedené v obsahu
- Popisy obrázků vygenerované pomocí umělé inteligence nebo text obrázku extrahované optického rozpoznávání znaků
- Vlastní dovednosti, které vyvíjíte tak, aby splňovaly konkrétní požadavky.
Indexer
Indexer je modul, který řídí celkový proces indexování. Vezme výstupy extrahované pomocí dovedností v sadě dovedností spolu s hodnotami dat a metadat extrahovaných z původního zdroje dat a mapuje je na pole v indexu.
Indexer se automaticky spustí při jeho vytvoření a dá se naplánovat tak, aby běžel v pravidelných intervalech nebo běžel na vyžádání a přidával do indexu další dokumenty. V některých případech, například při přidávání nových polí do indexu nebo nových dovedností do sady dovedností, může být nutné obnovit index před opětovným spuštěním indexeru.
Index
Index je prohledávatelný výsledek procesu indexování. Skládá se z kolekce dokumentů JSON s poli, která obsahují hodnoty extrahované během indexování. Klientské aplikace můžou dotazovat index, aby načetly, filtrily a seřadily informace.
Každé pole indexu lze nakonfigurovat s následujícími atributy:
- key: Pole definující jedinečný klíč pro záznamy indexu.
- prohledávatelné: Pole, která lze dotazovat pomocí fulltextového vyhledávání.
- filtrovatelná: Pole, která lze zahrnout do výrazů filtru, aby se vracely pouze dokumenty, které odpovídají zadaným omezením.
- řazení: Pole, která lze použít k seřazení výsledků.
- facetable: Pole, která lze použít k určení hodnot omezujících vlastností (prvky uživatelského rozhraní používané k filtrování výsledků na základě seznamu známých hodnot polí).
- retrievable: Pole, která lze zahrnout do výsledků hledání (ve výchozím nastavení jsou všechna pole načítána, pokud tento atribut explicitně neodeberete).