Rychlý start: Integrovaná vektorizace (Preview)

Důležité

Průvodce importem a vektorizací dat je ve veřejné verzi Preview v části Doplňkové podmínky použití. Cílí na rozhraní REST API verze 2023-10-10-01-Preview.

Začínáme s integrovanou vektorizací (Preview) pomocí Průvodce importem a vektorizací dat na webu Azure Portal Tento průvodce volá model vkládání textu Azure OpenAI, který vektorizuje obsah během indexování a pro dotazy.

V této verzi Preview průvodce:

  • Zdrojová data jsou pouze objekty blob pomocí výchozího režimu analýzy (jeden vyhledávací dokument na objekt blob).

  • Schéma indexu není konfigurovatelné. Zdrojová pole zahrnují content (blokované a vektorizované), metadata_storage_name název a metadata_storage_path klíč dokumentu reprezentovaný jako parent_id v indexu.

  • Vektorizace je pouze Azure OpenAI (text-embedding-ada-002) pomocí algoritmu Hierarchical Navigable Small Worlds (HNSW) s výchozími nastaveními.

  • Blok dat je nekonfigurovatelný. Platná nastavení jsou:

    textSplitMode: "pages",
    maximumPageLength: 2000,
    pageOverlapLength: 500
    

Pokud chcete získat další možnosti konfigurace a zdroje dat, vyzkoušejte Python nebo rozhraní REST API. Podrobnosti najdete v ukázce integrované vektorizace.

  • Předplatné Azure. Vytvořte si ho zdarma.

  • Azure AI Search, v libovolné oblasti a na libovolné úrovni. Většina existujících služeb podporuje vektorové vyhledávání. U malé podmnožina služeb vytvořených před lednem 2019 selže při vytváření index obsahující vektorová pole. V takovém případě se musí vytvořit nová služba.

  • Koncový bod Azure OpenAI s nasazením vkládání textu ada-002 a klíčem rozhraní API nebo uživatelskými oprávněními OpenAI služeb Cognitive Services k nahrání dat. V této verzi Preview můžete zvolit pouze jeden vektorizátor a vektorizátor musí být Azure OpenAI.

  • Účet služby Azure Storage, standardní výkon (pro obecné účely v2), horká, studená a studená úroveň přístupu.

  • Objekty blob poskytují textový obsah, pouze nestrukturované dokumenty a metadata. V této verzi Preview musí být zdrojem dat objekty blob Azure.

  • Oprávnění ke čtení ve službě Azure Storage Připojovací řetězec úložiště, které obsahuje přístupový klíč, poskytuje přístup pro čtení k obsahu úložiště. Pokud místo toho používáte přihlášení a role Microsoft Entra, ujistěte se, že spravovaná identita vyhledávací služby má oprávnění Čtenář dat objektů blob služby Storage.

  • Všechny komponenty (zdroj dat a koncový bod vkládání) musí mít povolený veřejný přístup pro uzly portálu, aby k nim měly přístup. Jinak průvodce selže. Po spuštění průvodce je možné povolit brány firewall a privátní koncové body v různých komponentách integrace pro zabezpečení. Pokud už existují privátní koncové body a nejde je zakázat, je alternativní možností spuštění příslušného koncového toku ze skriptu nebo programu z virtuálního počítače ve stejné virtuální síti jako privátní koncový bod. Tady je ukázka kódu Pythonu pro integrovanou vektorizaci. Ve stejném úložišti GitHubu jsou ukázky v jiných programovacích jazycích.

Kontrola místa

Mnoho zákazníků začíná s bezplatnou službou. Úroveň Free je omezená na tři indexy, tři zdroje dat, tři sady dovedností a tři indexery. Než začnete, ujistěte se, že máte místo pro další položky. Tento rychlý start vytvoří jeden z každého objektu.

Kontrola sémantického řazení

Tento průvodce podporuje sémantické řazení, ale pouze na úrovni Basic a vyšší a pouze v případě, že je ve vyhledávací službě již povolené sémantické řazení. Pokud používáte fakturovatelnou úroveň, zkontrolujte, jestli je povolené sémantické řazení.

Snímek obrazovky se stránkou konfigurace sémantického rankeru

Příprava ukázkových dat

Tato část vás odkazuje na data, která fungují pro účely tohoto rychlého startu.

  1. Přihlaste se k webu Azure Portal pomocí svého účtu Azure a přejděte ke svému účtu Azure Storage.

  2. V navigačním podokně v části Úložiště dat vyberte Kontejnery.

  3. Vytvořte nový kontejner a pak nahrajte dokumenty PDF plánu stavu použité pro účely tohoto rychlého startu.

  4. Než opustíte účet Služby Azure Storage na webu Azure Portal, udělte čtenáři dat objektů blob služby Storage oprávnění ke kontejneru za předpokladu, že chcete mít přístup na základě role. Nebo získejte připojovací řetězec k účtu úložiště ze stránky Přístupové klíče.

Získání podrobností o připojení pro Azure OpenAI

Průvodce potřebuje koncový bod, nasazení vkládání textu ada-002 a klíč rozhraní API nebo spravovanou identitu vyhledávací služby s uživatelskými oprávněními OpenAI služeb Cognitive Services.

  1. Přihlaste se k webu Azure Portal pomocí svého účtu Azure a přejděte k prostředku Azure OpenAI.

  2. V části Klíče a správa zkopírujte koncový bod.

  3. Na stejné stránce zkopírujte klíč nebo zkontrolujte řízení přístupu a přiřaďte členy role identitě vyhledávací služby.

  4. V části Nasazení modelu vyberte Spravovat nasazení a otevřete Azure AI Studio. Zkopírujte název nasazení text-embedding-ada-002.

Spuštění průvodce

Začněte tím, že na webu Azure Portal přejdete na Search Azure AI a otevřete Průvodce importem a vektorizací dat.

  1. Přihlaste se k webu Azure Portal pomocí svého účtu Azure a přejděte na Search Azure AI.

  2. Na stránce Přehled vyberte Importovat a vektorizovat data.

    Snímek obrazovky s příkazem průvodce

Připojení k datům

Dalším krokem je připojení ke zdroji dat, který se má použít pro index vyhledávání.

  1. V Průvodci importem a vektorizací dat na Připojení na kartě Data rozbalte rozevírací seznam Zdroj dat a vyberte Azure Blob Storage.

  2. Zadejte předplatné Azure, účet úložiště a kontejner, který poskytuje data.

  3. Pro připojení zadejte úplný přístup připojovací řetězec, který obsahuje klíč, nebo zadejte spravovanou identitu, která má v kontejneru oprávnění Čtenář dat objektů blob služby Storage.

  4. Určete, jestli chcete zjistit odstranění:

    Snímek obrazovky se stránkou zdroje dat

  5. Pokračujte výběrem možnosti Další: Vektorizace a obohacení .

Obohacení a vektorizace dat

V tomto kroku zadejte model vložení použitý k vektorizaci blokovaných dat.

  1. Zadejte název předplatného, koncového bodu, klíče rozhraní API a nasazení modelu.

  2. Volitelně můžete prolomit binární obrázky (například naskenované soubory dokumentů) a použít OCR k rozpoznávání textu.

  3. Volitelně můžete přidat sémantické řazení , abyste mohli výsledky změnit na konci provádění dotazu a propagovat nejvíce sémanticky relevantních shod na nejvyšší úroveň.

  4. Zadejte plán běhu indexeru.

    Snímek obrazovky se stránkou rozšiřování

  5. Vyberte Další: Pokračujte vytvořením a kontrolou .

Spuštění průvodce

Tento krok vytvoří následující objekty:

  • Připojení ke zdroji dat ke kontejneru objektů blob

  • Index s vektorovými poli, vektorizátory, vektorovými profily, vektorovými algoritmy. Během pracovního postupu průvodce se nezobrazí výzva k návrhu ani úpravě výchozího indexu. Indexy odpovídají verzi 2023-10-01-Preview.

  • Sada dovedností s dovedností Rozdělení textu pro vytváření bloků dat a Model AzureOpenAIEmbeddingModel pro vektorizaci

  • Indexer s mapováním polí a mapováním výstupních polí (pokud je to možné).

Pokud dojde k chybám, nejprve zkontrolujte oprávnění. Potřebujete uživatele OpenAI služeb Cognitive Services v Azure OpenAI a čtenáři dat objektů blob úložiště ve službě Azure Storage. Objekty blob musí být nestrukturované (blokovaná data se načtou z vlastnosti "content" objektu blob).

Kontrola výsledků

Průzkumník služby Search přijímá textové řetězce jako vstup a potom vektorizuje text pro provádění vektorového dotazu.

  1. Vyberte index.

  2. Volitelně můžete vybrat možnosti dotazu a skrýt vektorové hodnoty ve výsledcích hledání. Tento krok usnadňuje čtení výsledků hledání.

    Snímek obrazovky s tlačítkem možností dotazu

  3. Vyberte zobrazení JSON, abyste do parametru dotazu textového vektoru mohli zadat text pro vektorový dotaz.

    Snímek obrazovky se selektorem JSON

    Tento průvodce nabízí výchozí dotaz, který vydá vektorový dotaz v poli vektor, který vrací 5 nejbližších sousedů. Pokud jste se rozhodli skrýt vektorové hodnoty, váš výchozí dotaz obsahuje příkaz "select", který z výsledků hledání vyloučí vektorové pole.

    {
       "select": "chunk_id,parent_id,chunk,title",
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "vector"
           }
        ]
    }
    
  4. Nahraďte text "*" otázkou související se zdravotními plány, například "který plán má nejnižší odečitatelnou hodnotu".

  5. Výběrem možnosti Hledat spusťte dotaz.

    Snímek obrazovky s výsledky hledání

    Měli byste vidět 5 shod, kde každý dokument je blokem původního souboru PDF. Pole nadpisu ukazuje, ze kterého bloku pdf pochází.

  6. Pokud chcete zobrazit všechny bloky dat z konkrétního dokumentu, přidejte filtr pro pole názvu pro konkrétní PDF:

    {
       "select": "chunk_id,parent_id,chunk,title",
       "filter": "title eq 'Benefit_Options.pdf'",
       "count": true,
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "vector"
           }
        ]
    }
    
    

Vyčištění

Azure AI Search je fakturovatelný prostředek. Pokud už ho nepotřebujete, odstraňte ho z předplatného, abyste se vyhnuli poplatkům.

Další kroky

V tomto rychlém startu jste se seznámili s průvodcem importem a vektorizací dat , který vytvoří všechny objekty nezbytné pro integrovanou vektorizaci. Pokud chcete podrobně prozkoumat jednotlivé kroky, vyzkoušejte integrovaný vektorizační vzorek.