Rychlý start: Vektorizace textu a obrázků pomocí webu Azure Portal

Článek
07/10/2024

Důležité

Průvodce importem a vektorizací dat je ve veřejné verzi Preview v části Doplňkové podmínky použití. Ve výchozím nastavení cílí na rozhraní REST API verze 2024-05-01-Preview.

Tento rychlý start vám pomůže začít s integrovanou vektorizací (Preview) pomocí Průvodce importem a vektorizací dat na webu Azure Portal. Tento průvodce volá model vkládání zadaný uživatelem, který vektorizuje obsah během indexování a pro dotazy.

Omezení verze Preview

Zdrojová data jsou buď soubory Azure Blob Storage, nebo soubory OneLake a klávesové zkratky, a to pomocí výchozího režimu analýzy (jeden hledaný dokument na objekt blob nebo soubor).
Schéma indexu není konfigurovatelné. Zdrojová pole zahrnují content (blokované a vektorizované), metadata_storage_name název a metadata_storage_path klíč dokumentu. Tento klíč je reprezentován jako parent_id v indexu.

Blok dat je nekonfigurovatelný. Platná nastavení jsou:

textSplitMode: "pages",
maximumPageLength: 2000,
pageOverlapLength: 500

Pokud chcete méně omezení nebo více možností zdroje dat, vyzkoušejte přístup založený na kódu. Další informace najdete v ukázce integrované vektorizace.

Požadavky

Předplatné Azure. Vytvořte si ho zdarma.
Pro data buď Azure Blob Storage , nebo OneLake Lakehouse.

Azure Storage musí být účet standardního výkonu (pro obecné účely verze 2). Úrovně přístupu můžou být horké, studené a studené.

Nepoužívejte Azure Data Lake Storage Gen2 (účet úložiště s hierarchickým oborem názvů). Tato verze průvodce nepodporuje Data Lake Storage Gen2.
Pro vektorizaci účet služeb Azure AI s více službami nebo koncový bod služby Azure OpenAI s nasazeními.

V případě multimodálu s Azure AI Vision vytvořte službu Azure AI ve ŠvédskuCentral, EastUS, NorthEurope, WestEurope, WestUS, SoutheastAsia, KoreaCentral, FranceCentral, AustraliaEast, WestUS2, SwitzerlandNorth nebo JapanEast. V dokumentaci najdete aktualizovaný seznam.

Můžete také použít katalog modelů Azure AI Studio (a centrum a projekt) s nasazeními modelů.
Pro indexování a dotazy azure AI Search. Musí být ve stejné oblasti jako služba Azure AI. Doporučujeme úroveň Basic nebo vyšší.
Přiřazení rolí nebo klíče rozhraní API pro připojení ke vkládání modelů a zdrojů dat Tento článek obsahuje pokyny pro řízení přístupu na základě role (RBAC).

Všechny předchozí prostředky musí mít povolený veřejný přístup, aby k nim měly uzly portálu přístup. Jinak průvodce selže. Po spuštění průvodce můžete pro zabezpečení povolit brány firewall a privátní koncové body. Další informace naleznete v tématu Zabezpečené připojení v průvodcích importem.

Pokud už existují privátní koncové body a nemůžete je zakázat, je alternativní možností spuštění příslušného kompletního toku ze skriptu nebo programu na virtuálním počítači. Virtuální počítač musí být ve stejné virtuální síti jako privátní koncový bod. Tady je ukázka kódu Pythonu pro integrovanou vektorizaci. Stejné úložiště GitHub obsahuje ukázky v jiných programovacích jazycích.

Bezplatná vyhledávací služba podporuje RBAC u připojení ke službě Azure AI Search, ale nepodporuje spravované identity u odchozích připojení ke službě Azure Storage nebo Azure AI Vision. Tato úroveň podpory znamená, že pro připojení mezi bezplatnou vyhledávací službou a dalšími službami Azure musíte použít ověřování založené na klíči. Pro připojení, která jsou bezpečnější:

Použijte úroveň Basic nebo vyšší.
Nakonfigurujte spravovanou identitu a přiřazení rolí tak, aby přijímaly žádosti z Azure AI Search v jiných službách Azure.

Poznámka:

Pokud nemůžete procházet průvodcem, protože nejsou dostupné možnosti (například nemůžete vybrat zdroj dat nebo vložený model), znovu se k přiřazení rolí vrátit. Chybové zprávy označují, že modely nebo nasazení neexistují, pokud ve skutečnosti skutečný problém spočívá v tom, že vyhledávací služba nemá oprávnění k přístupu k nim.

Kontrola místa

Pokud začínáte s bezplatnou službou, jste omezeni na tři indexy, tři zdroje dat, tři sady dovedností a tři indexery. Než začnete, ujistěte se, že máte místo pro další položky. Tento rychlý start vytvoří jeden z každého objektu.

Kontrola identity služby

Doporučujeme přiřazení rolí pro připojení vyhledávací služby k jiným prostředkům.

Ve službě Azure AI Search povolte RBAC.
Nakonfigurujte vyhledávací službu tak, aby používala spravovanou identitu přiřazenou systémem nebo přiřazenou uživatelem.

V následujících částech můžete přiřadit spravovanou identitu vyhledávací služby k rolím v jiných službách. Oddíly obsahují kroky pro přiřazení rolí, pokud je to možné.

Kontrola sémantického řazení

Průvodce podporuje sémantické řazení, ale pouze na úrovni Basic a vyšší a pouze v případě, že je ve vyhledávací službě již povolené sémantické řazení. Pokud používáte fakturovatelnou úroveň, zkontrolujte, jestli je povolené sémantické řazení.

Příprava ukázkových dat

Tato část vás odkazuje na data, která fungují pro účely tohoto rychlého startu.

Azure Storage
OneLake

Přihlaste se k webu Azure Portal pomocí svého účtu Azure a přejděte ke svému účtu Azure Storage.
V levém podokně v části Úložiště dat vyberte Kontejnery.
Vytvořte nový kontejner a pak nahrajte dokumenty PDF plánu stavu použité pro účely tohoto rychlého startu.
V řízení přístupu přiřaďte roli Čtenář dat objektů blob služby Storage v kontejneru identitě vyhledávací služby. Nebo získejte připojovací řetězec k účtu úložiště ze stránky Přístupové klíče.

Přihlaste se k Power BI a vytvořte pracovní prostor.
V Power BI vyberte v nabídce vlevo pracovní prostory a otevřete pracovní prostor, který jste vytvořili.
Přiřaďte oprávnění na úrovni pracovního prostoru:
1. V pravé horní nabídce vyberte Spravovat přístup.
2. Vyberte Přidat lidi nebo skupiny.
3. Zadejte název vyhledávací služby. Pokud je https://my-demo-service.search.windows.netadresa URL například , název vyhledávací služby je my-demo-service.
4. Vyberte roli. Výchozí hodnota je Prohlížeč, ale potřebujete přispěvatele k načtení dat do indexu vyhledávání.
Načtěte ukázková data:
1. V přepínači Power BI vlevo dole vyberte Datoví technici ing.
2. V podokně Datoví technici vyberte Lakehouse a vytvořte jezero.
3. Zadejte název a pak vyberte Vytvořit , abyste vytvořili a otevřeli nový jezerní dům.
4. Vyberte Nahrát soubory a pak nahrajte dokumenty PDF plánu stavu použité pro tento rychlý start.
Před opuštěním jezeře zkopírujte adresu URL nebo získejte ID pracovního prostoru a jezerahouse, abyste mohli v průvodci zadat jezero. Adresa URL je v tomto formátu: https://msit.powerbi.com/groups/00000000-0000-0000-0000-000000000000/lakehouses/11111111-1111-1111-1111-111111111111?experience=data-engineering.

Nastavení modelů vkládání

Integrovaná vektorizace a průvodce importem a vektorizací dat klepněte během indexování do nasazených vložených modelů, aby bylo možné převést text a obrázky na vektory.

Modely vkládání nasazené v Azure OpenAI, Azure AI Vision můžete použít pro multimodální vkládání nebo v katalogu modelů v Azure AI Studiu.

Import a vektorizace dat podporuje text-embedding-ada-002, text-embedding-3-largea text-embedding-3-small. Průvodce interně používá dovednosti AzureOpenAIEmbedding pro připojení k Azure OpenAI.

Pomocí těchto pokynů přiřaďte oprávnění nebo získejte klíč rozhraní API pro připojení vyhledávací služby k Azure OpenAI. Před spuštěním průvodce byste měli nastavit oprávnění nebo mít k dispozici informace o připojení.

Přihlaste se k webu Azure Portal pomocí svého účtu Azure a přejděte k prostředku Azure OpenAI.
Nastavení oprávnění:
1. V nabídce vlevo vyberte Řízení přístupu.
2. Vyberte Přidat a pak vyberte Přidat přiřazení role.
3. V části Role funkce úlohy vyberte Uživatele OpenAI služeb Cognitive Services a pak vyberte Další.
4. V části Členové vyberte Spravovanou identitu a pak vyberte Členové.
5. Vyfiltrujte podle předplatného a typu prostředku (vyhledávací služby) a pak vyberte spravovanou identitu vyhledávací služby.
6. Vyberte Zkontrolovat + přiřadit.
Na stránce Přehled vyberte Kliknutím sem zobrazíte koncové body. Pokud potřebujete zkopírovat koncový bod nebo klíč rozhraní API, klikněte sem a spravujte klíče. Tyto hodnoty můžete vložit do průvodce, pokud používáte prostředek Azure OpenAI s ověřováním na základě klíče.
V části Správa prostředků a nasazení modelu vyberte Spravovat nasazení a otevřete Azure AI Studio.
Zkopírujte název text-embedding-ada-002 nasazení nebo jiný podporovaný model vkládání. Pokud model vkládání nemáte, nasaďte ho teď.

Spuštění průvodce

Přihlaste se k webu Azure Portal pomocí svého účtu Azure a přejděte na Search Azure AI.
Na stránce Přehled vyberte Importovat a vektorizovat data.

Připojení k datům

Dalším krokem je připojení ke zdroji dat, který se má použít pro index vyhledávání.

V Průvodci importem a vektorizací dat na stránce Nastavení datového připojení vyberte Azure Blob Storage nebo OneLake.
Zadejte předplatné Azure.
V případě OneLake zadejte adresu URL lakehouse nebo zadejte ID pracovního prostoru a jezerahouse.

Pro Azure Storage vyberte účet a kontejner, který data poskytuje.
Určete, jestli chcete zjistit odstranění.
Vyberte Další.

Vektorizace textu

V tomto kroku zadejte model vkládání pro vektorizaci dat v bloku dat.

Na stránce Vektorizace textu určete, jestli jsou nasazené modely v Azure OpenAI, katalogu modelů Azure AI Studio nebo existujícím multimodálním prostředku Azure AI Vision ve stejné oblasti jako Azure AI Search.
Zadejte předplatné Azure.
Proveďte výběry podle prostředku:
1. V případě Azure OpenAI vyberte službu, nasazení modelu a typ ověřování.
2. V katalogu AI Studio vyberte projekt, nasazení modelu a typ ověřování.
3. V případě vektorizace AI Vision vyberte účet.
Další informace najdete v tématu Nastavení modelů vkládání dříve v tomto článku.
Zaškrtněte políčko, které potvrzuje dopad fakturace používání těchto prostředků.
Vyberte Další.

Vektorizace a rozšiřování obrázků

Pokud váš obsah obsahuje obrázky, můžete AI použít dvěma způsoby:

Použijte podporovaný model vkládání obrázků z katalogu nebo zvolte multimodální rozhraní API služby Azure AI Vision pro vložení obrázků.
K rozpoznávání textu v obrázcích použijte optické rozpoznávání znaků (OCR).

Azure AI Search a prostředek Azure AI musí být ve stejné oblasti.

Na stránce Vektorizace obrázků zadejte typ připojení, které má průvodce vytvořit. V případě vektorizace obrázků se průvodce může připojit k vkládání modelů v Azure AI Studiu nebo Azure AI Vision.
Zadejte předplatné.
Pro katalog modelů Azure AI Studio zadejte projekt a nasazení. Další informace najdete v tématu Nastavení modelů vkládání dříve v tomto článku.
Volitelně můžete prolomit binární obrázky (například naskenované soubory dokumentů) a použít OCR k rozpoznávání textu.
Zaškrtněte políčko, které potvrzuje dopad fakturace používání těchto prostředků.
Vyberte Další.

Volba upřesňujících nastavení

Na stránce Upřesnit nastavení můžete volitelně přidat sémantické řazení, aby se výsledky na konci provádění dotazu přeřadily. Přehodnocování podporuje nejvíce séanticky relevantní shody na vrcholu.
Volitelně můžete zadat plán spuštění indexeru.
Vyberte Další.

Dokončení průvodce

Na stránce Kontrola konfigurace zadejte předponu pro objekty, které průvodce vytvoří. Běžná předpona vám pomůže udržet si přehled.
Vyberte Vytvořit.

Po dokončení konfigurace průvodce vytvoří následující objekty:

Připojení ke zdroji dat
Indexujte pomocí vektorových polí, vektorizátorů, vektorových profilů a vektorových algoritmů. Během pracovního postupu průvodce nemůžete navrhnout ani upravit výchozí index. Indexy odpovídají rozhraní REST API verze 2024-05-01-preview.
Sada dovedností s dovedností Rozdělení textu pro blokování dat a vloženou dovedností pro vektorizaci. Dovednost vkládání je dovednost AzureOpenAIEmbeddingModel pro Azure OpenAI nebo dovednost AML pro katalog modelů Azure AI Studio.
Indexer s mapováním polí a mapováním výstupních polí (pokud je to možné).

Kontrola výsledků

Průzkumník služby Search přijímá textové řetězce jako vstup a pak vektorizuje text pro provádění vektorového dotazu.

Na webu Azure Portal přejděte do indexů správy>vyhledávání a vyberte index, který jste vytvořili.
Volitelně můžete vybrat možnosti dotazu a skrýt vektorové hodnoty ve výsledcích hledání. Tento krok usnadňuje čtení výsledků hledání.
V nabídce Zobrazení vyberte zobrazení JSON, abyste do parametru vektorového text dotazu mohli zadat text pro vektorový dotaz.

Průvodce nabízí výchozí dotaz, který vydá vektorový dotaz v vector poli a vrátí pět nejbližších sousedů. Pokud jste se rozhodli skrýt vektorové hodnoty, váš výchozí dotaz obsahuje select příkaz, který pole vylučuje vector z výsledků hledání.
```
{
   "select": "chunk_id,parent_id,chunk,title",
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "vector"
       }
    ]
}
```
text Pro hodnotu nahraďte hvězdičku (*) otázkou související se zdravotními plány, například Which plan has the lowest deductible?.
Výběrem možnosti Hledat spusťte dotaz.

Mělo by se zobrazit pět shod. Každý dokument je blokem původního souboru PDF. Pole title ukazuje, ze kterého souboru PDF blok pochází.

Pokud chcete zobrazit všechny bloky dat z konkrétního dokumentu, přidejte filtr pro title pole pro konkrétní PDF:

{
   "select": "chunk_id,parent_id,chunk,title",
   "filter": "title eq 'Benefit_Options.pdf'",
   "count": true,
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "vector"
       }
    ]
}

Vyčištění

Azure AI Search je fakturovatelný prostředek. Pokud ho už nepotřebujete, odstraňte ho z předplatného, abyste se vyhnuli poplatkům.

Další krok

V tomto rychlém startu jste se seznámili s průvodcem importem a vektorizací dat , který vytvoří všechny potřebné objekty pro integrovanou vektorizaci. Pokud chcete podrobně prozkoumat jednotlivé kroky, vyzkoušejte integrovaný vektorizační vzorek.

Sdílet prostřednictvím