Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Platí pro: Azure Logic Apps (Consumption + Standard)
Někdy musíte obsah převést na tokeny, což jsou slova nebo bloky znaků, nebo před použitím tohoto obsahu s určitými akcemi rozdělte velký dokument na menší části. Například akce Azure AI Search nebo Azure OpenAI očekávají tokenizovaný vstup a můžou zpracovávat pouze omezený počet tokenů.
Ve těchto scénářích použijte akce Data Operations nazvané Parsování dokumentu a Rozdělit text na bloky ve vašem pracovním postupu aplikace Logic App. Tyto akce transformují obsah, například dokument PDF, soubor CSV, excelový soubor atd., do výstupu tokenizovaného řetězce a potom tento řetězec rozdělí na části na základě počtu tokenů. Tyto výstupy pak můžete odkazovat a používat s dalšími akcemi v pracovním postupu.
Tip
Pokud se chcete dozvědět víc, můžete se zeptat Azure Copilotu na tyto otázky:
- Co je token v AI?
- Co je tokenizovaný vstup?
- Co je výstup tokenizovaného řetězce?
- Co je analýza v AI?
- Co je segmentace v AI?
Pokud chcete najít Azure Copilot, na panelu nástrojů webu Azure Portal vyberte Copilot.
Tento průvodce ukazuje, jak přidat a nastavit akce pro analýzu dokumentů a bloků textu v pracovním postupu.
Známé problémy a omezení
Analýza dokumentu a blokování textu v současné době nepodporují hostitelské soubory, například binární soubory hlavního počítače a středního rozsahu, jako jsou VSAM soubory (Virtual Storage Access Method). Pokud ale pracujete se standardními pracovními postupy, můžete místo toho použít integrovanou akci SOUBOR HOSTITELE IBM s názvem Analyzovat obsah souboru hostitele.
Požadavky
Účet a předplatné Azure. Pokud nemáte předplatné Azure, zaregistrujte si bezplatný účet Azure.
Pracovní postup aplikace logiky pro platformu Consumption nebo Standard s existujícím triggerem, protože operace Parsování dokumentu a Blokování textu jsou k dispozici pouze jako akce. Ujistěte se, že akce, která načte obsah, který chcete analyzovat, nebo blok dat předchází těmto datovým operacím.
Parsování dokumentu
Akce parsování dokumentu převede obsah, například dokument PDF, soubor CSV, excelový soubor atd., na tokenizovaný řetězec. V tomto příkladu předpokládejme, že váš pracovní postup začíná triggerem požadavku s názvem Při přijetí požadavku HTTP. Tento trigger čeká na přijetí požadavku HTTP odeslaného z jiné komponenty, jako je funkce Azure, jiný pracovní postup aplikace logiky atd. Požadavek HTTP obsahuje adresu URL pro nový nahraný dokument, který je k dispozici pro pracovní postup pro načtení a analýzu. Akce HTTP okamžitě následuje za triggerem a odešle požadavek HTTP na adresu URL dokumentu a vrátí obsah dokumentu z jeho umístění úložiště.
Pokud používáte jiné zdroje obsahu, jako je Azure Blob Storage, SharePoint, OneDrive, Systém souborů, FTP atd., můžete zkontrolovat, jestli jsou triggery pro tyto zdroje dostupné. Můžete také zkontrolovat, zda jsou k dispozici akce pro načtení obsahu pro tyto zdroje. Další informace najdete v tématu Integrované operace a spravované konektory.
V portálu Azure otevřete prostředek logické aplikace a pracovní postup v návrháři.
K existujícímu triggeru a akcím přidejte do pracovního postupu akci Data Operations s názvem Parse Document.
V návrháři vyberte akci Parsovat dokument .
Jakmile se otevře podokno informací o akci, na kartě Parametry ve vlastnosti Obsah dokumentu zadejte obsah, který chcete parsovat pomocí následujících kroků:
Vyberte uvnitř pole Obsah dokumentu.
Zobrazí se možnosti seznamu dynamického obsahu (ikona blesku) a editoru výrazů (ikona funkce).
Pokud chcete vybrat výstup z předchozí akce, vyberte seznam dynamického obsahu.
Pokud chcete vytvořit výraz, který manipuluje s výstupem z předchozí akce, vyberte editor výrazů.
Tento příklad pokračuje výběrem ikony blesku pro seznam dynamického obsahu.
Po otevření seznamu dynamického obsahu vyberte požadovaný výstup z předchozí operace.
V tomto příkladu akce Parsovat dokument odkazuje na základní výstup z akce HTTP .
Výstup textu se teď zobrazí v poli Obsah dokumentu:
Pod akci Parsovat dokument přidejte akce, které chcete použít s výstupem tokenizovaného řetězce, například Chunk text, jak tento průvodce popisuje později.
Zpracování dokumentu - Reference
Parametry
| Jméno | Hodnota | Datový typ | Popis | Omezení |
|---|---|---|---|---|
| Obsah dokumentu | < obsah k analýze> | Jakýkoliv | Obsah, který se má analyzovat. | Žádný |
Výstupy
| Jméno | Datový typ | Popis |
|---|---|---|
| Analyzovaný text výsledku | Pole řetězců | Pole řetězců. |
| Parsovaný výsledek | Objekt | Objekt, který obsahuje celý analyzovaný text. |
Text bloku dat
Akce textového bloku rozdělí obsah na menší části pro následné akce, které se lépe použijí v aktuálním pracovním postupu. Následující kroky vycházejí z příkladu z části Analýza dokumentu a rozdělí výstup řetězce tokenu pro použití s operacemi Azure AI, které očekávají tokenizované malé bloky obsahu.
Poznámka:
Předchozí akce, které používají bloky dat, nemají vliv na akci bloku textu, ani akce bloku dat nemá vliv na následné akce, které používají bloky dat.
V portálu Azure otevřete prostředek logické aplikace a pracovní postup v návrháři.
Pod akcí Parsování dokumentupostupujte podle těchto obecných kroků k přidání akce Datové operace s názvem Rozdělit text.
V návrháři vyberte akci Blok textu .
Jakmile se otevře podokno s informacemi o akci, na kartě Parametry u vlastnosti Strategie porcování vyberte TokenSize jako metodu porcování, pokud ještě není vybraná.
Strategie Popis TokenSize Rozdělte zadaný obsah na základě počtu tokenů. Po výběru strategie klikněte do Textového pole a určete obsah pro očlenění.
Zobrazí se možnosti seznamu dynamického obsahu (ikona blesku) a editoru výrazů (ikona funkce).
Pokud chcete vybrat výstup z předchozí akce, vyberte seznam dynamického obsahu.
Pokud chcete vytvořit výraz, který manipuluje s výstupem z předchozí akce, vyberte editor výrazů.
Tento příklad pokračuje výběrem ikony blesku pro seznam dynamického obsahu.
Po otevření seznamu dynamického obsahu vyberte požadovaný výstup z předchozí operace.
V tomto příkladu akce Blok textu odkazuje na výstup analyzovaného výsledku z akce Parsovat dokument .
V textovémpoli se teď zobrazuje výstup akce parsovaný výsledek:
Dokončete nastavení akce Blok textu na základě vybrané strategie a scénáře. Další informace naleznete v tématu Blok textu – referenční informace.
Když teď přidáte další akce, které očekávají a používají tokenizovaný vstup, jako jsou akce Azure AI, vstupní obsah se naformátuje pro snadnější spotřebu.
Textový blok – referenční dokumentace
Parametry
| Jméno | Hodnota | Datový typ | Popis | Omezení |
|---|---|---|---|---|
| Strategie vytváření bloků dat | TokenSize | Řetězcový enum | Rozdělte obsah na základě počtu tokenů. Výchozí: TokenSize |
Nelze použít |
| Text | < content-to-chunk> | Jakýkoliv | Obsah k rozdělení. | Průvodce referenčními informacemi o omezeních a konfiguraci |
| Kódovací model | < encoding-method> | Výčet typu string | Model kódování, který se má použít: - Výchozí: cl100k_base (gpt4, gpt-3.5-turbo, gpt-35-turbo) - r50k_base (gpt-3) - p50k_base (gpt-3) - p50k_edit (gpt-3) - cl200k_base (gpt-4o) Další informace najdete v tématu OpenAI – Přehled modelů. |
Nelze použít |
| TokenSize | < max-tokens-per-chunk> | Celé číslo | Maximální počet tokenů na část obsahu. Výchozí: Žádné |
Minimum: 1 Maximum: 8000 |
| PageOverlapLength | < počet překrývajících se znaků> | Celé číslo | Počet znaků od konce předchozího bloku dat, které se mají zahrnout do dalšího bloku dat. Toto nastavení vám pomůže vyhnout se ztrátě důležitých informací při rozdělení obsahu do bloků dat a zachování kontinuity a kontextu mezi bloky dat. Výchozí hodnota: 0 – Neexistují žádné překrývající se znaky. |
Minimum: 0 |
Tip
Pokud se chcete dozvědět víc, můžete se zeptat Azure Copilotu na tyto otázky:
- Co je PageOverlapLength v chunkingu?
- Co je kódování v Azure AI?
Pokud chcete najít Azure Copilot, na panelu nástrojů webu Azure Portal vyberte Copilot.
Výstupy
| Jméno | Datový typ | Popis |
|---|---|---|
| Blokované textové položky výsledku | Pole řetězců | Pole řetězců. |
| Výsledky po částech Textová položka | Řetězec | Jediný řetězec v poli. |
| Výsledky po částech | Objekt | Objekt, který obsahuje celý segmentovaný text. |
Ukázkový pracovní postup
Následující příklad obsahuje další akce, které vytvoří úplný vzor pracovního postupu pro příjem dat z libovolného zdroje:
| Krok | Úloha | Základní operace | Popis |
|---|---|---|---|
| 1 | Počkejte nebo zkontrolujte nový obsah. | Při přijetí požadavku HTTP | Trigger, který buď dotazuje, nebo čeká na doručení nových dat, buď na základě plánovaného opakování, nebo v reakci na specifické události. Taková událost může být nový soubor, který se nahraje do konkrétního systému úložiště, jako je Azure Blob Storage, SharePoint, OneDrive, Systém souborů, FTP atd. V tomto příkladu spouštěcí operace Požadavku čeká na požadavek HTTP nebo HTTPS odeslaný z jiného koncového bodu. Požadavek obsahuje adresu URL nového nahraného dokumentu. |
| 2 | Získejte obsah. | HTTP | Akce HTTP, která načte nahraný dokument pomocí adresy URL souboru z výstupu triggeru. |
| 3 | Sestavit podrobnosti dokumentu | Sestavení | Akce operací s daty, která zřetězí různé položky. Tento příklad spojuje informace o klíčích a hodnotách dokumentu. |
| 4 | Vytvořte řetězec tokenu. | Parsování dokumentu | Akce Operace s daty, která vytvoří tokenizovaný řetězec pomocí výstupu akce Vytvořit. |
| 5 | Vytváření bloků obsahu | Text úseku | Operace s daty, která rozdělí řetězec tokenu na části na základě počtu tokenů na kus obsahu. |
| 6 | Převést tokenizovaný a segmentovaný text na JSON. | Parsování formátu JSON | Operace s daty, která převádí zpracovaný výstup po částech na JSON pole. |
| 7 | Vyberte položky pole JSON. | Vybrat | Akce operace s daty, která vybere více položek z pole JSON. |
| 8 | Vygenerujte vnoření. | Získání více vložených objektů | Akce Azure OpenAI, která vytvoří vkládání pro každou položku pole JSON. |
| 9 | Vyberte vkládání a další informace. | Vybrat | Operace s daty, která zahrnuje výběr embeddingů a další informace o dokumentu. |
| 10 | Indexujte data. | Indexování dokumentů | Akce Azure AI Search, která indexuje data na základě každého vybraného vkládání. |