Parsování dokumentů a textu bloku dat pro akce AI v pracovních postupech pro Azure Logic Apps

Platí pro: Azure Logic Apps (Consumption + Standard)

Někdy musíte obsah převést na tokeny, což jsou slova nebo bloky znaků, nebo před použitím tohoto obsahu s určitými akcemi rozdělte velký dokument na menší části. Například akce Azure AI Search nebo Azure OpenAI očekávají tokenizovaný vstup a můžou zpracovávat pouze omezený počet tokenů.

Ve těchto scénářích použijte akce Data Operations nazvané Parsování dokumentu a Rozdělit text na bloky ve vašem pracovním postupu aplikace Logic App. Tyto akce transformují obsah, například dokument PDF, soubor CSV, excelový soubor atd., do výstupu tokenizovaného řetězce a potom tento řetězec rozdělí na části na základě počtu tokenů. Tyto výstupy pak můžete odkazovat a používat s dalšími akcemi v pracovním postupu.

Tip

Pokud se chcete dozvědět víc, můžete se zeptat Azure Copilotu na tyto otázky:

Co je token v AI?
Co je tokenizovaný vstup?
Co je výstup tokenizovaného řetězce?
Co je analýza v AI?
Co je segmentace v AI?

Pokud chcete najít Azure Copilot, na panelu nástrojů webu Azure Portal vyberte Copilot.

Tento průvodce ukazuje, jak přidat a nastavit akce pro analýzu dokumentů a bloků textu v pracovním postupu.

Známé problémy a omezení

Analýza dokumentu a blokování textu v současné době nepodporují hostitelské soubory, například binární soubory hlavního počítače a středního rozsahu, jako jsou VSAM soubory (Virtual Storage Access Method). Pokud ale pracujete se standardními pracovními postupy, můžete místo toho použít integrovanou akci SOUBOR HOSTITELE IBM s názvem Analyzovat obsah souboru hostitele.

Požadavky

Účet a předplatné Azure. Pokud nemáte předplatné Azure, zaregistrujte si bezplatný účet Azure.
Pracovní postup aplikace logiky pro platformu Consumption nebo Standard s existujícím triggerem, protože operace Parsování dokumentu a Blokování textu jsou k dispozici pouze jako akce. Ujistěte se, že akce, která načte obsah, který chcete analyzovat, nebo blok dat předchází těmto datovým operacím.

Parsování dokumentu

Akce parsování dokumentu převede obsah, například dokument PDF, soubor CSV, excelový soubor atd., na tokenizovaný řetězec. V tomto příkladu předpokládejme, že váš pracovní postup začíná triggerem požadavku s názvem Při přijetí požadavku HTTP. Tento trigger čeká na přijetí požadavku HTTP odeslaného z jiné komponenty, jako je funkce Azure, jiný pracovní postup aplikace logiky atd. Požadavek HTTP obsahuje adresu URL pro nový nahraný dokument, který je k dispozici pro pracovní postup pro načtení a analýzu. Akce HTTP okamžitě následuje za triggerem a odešle požadavek HTTP na adresu URL dokumentu a vrátí obsah dokumentu z jeho umístění úložiště.

Pokud používáte jiné zdroje obsahu, jako je Azure Blob Storage, SharePoint, OneDrive, Systém souborů, FTP atd., můžete zkontrolovat, jestli jsou triggery pro tyto zdroje dostupné. Můžete také zkontrolovat, zda jsou k dispozici akce pro načtení obsahu pro tyto zdroje. Další informace najdete v tématu Integrované operace a spravované konektory.

V portálu Azure otevřete prostředek logické aplikace a pracovní postup v návrháři.
K existujícímu triggeru a akcím přidejte do pracovního postupu akci Data Operations s názvem Parse Document.
V návrháři vyberte akci Parsovat dokument .
Jakmile se otevře podokno informací o akci, na kartě Parametry ve vlastnosti Obsah dokumentu zadejte obsah, který chcete parsovat pomocí následujících kroků:
1. Vyberte uvnitř pole Obsah dokumentu.
  
  Zobrazí se možnosti seznamu dynamického obsahu (ikona blesku) a editoru výrazů (ikona funkce).
  - Pokud chcete vybrat výstup z předchozí akce, vyberte seznam dynamického obsahu.
  - Pokud chcete vytvořit výraz, který manipuluje s výstupem z předchozí akce, vyberte editor výrazů.
  Tento příklad pokračuje výběrem ikony blesku pro seznam dynamického obsahu.
2. Po otevření seznamu dynamického obsahu vyberte požadovaný výstup z předchozí operace.
  
  V tomto příkladu akce Parsovat dokument odkazuje na základní výstup z akce HTTP .
  
  Výstup textu se teď zobrazí v poli Obsah dokumentu:
Pod akci Parsovat dokument přidejte akce, které chcete použít s výstupem tokenizovaného řetězce, například Chunk text, jak tento průvodce popisuje později.

Zpracování dokumentu - Reference

Parametry

Jméno	Hodnota	Datový typ	Popis	Omezení
Obsah dokumentu	< obsah k analýze>	Jakýkoliv	Obsah, který se má analyzovat.	Žádný

Výstupy

Jméno	Datový typ	Popis
Analyzovaný text výsledku	Pole řetězců	Pole řetězců.
Parsovaný výsledek	Objekt	Objekt, který obsahuje celý analyzovaný text.

Text bloku dat

Akce textového bloku rozdělí obsah na menší části pro následné akce, které se lépe použijí v aktuálním pracovním postupu. Následující kroky vycházejí z příkladu z části Analýza dokumentu a rozdělí výstup řetězce tokenu pro použití s operacemi Azure AI, které očekávají tokenizované malé bloky obsahu.

Poznámka:

Předchozí akce, které používají bloky dat, nemají vliv na akci bloku textu, ani akce bloku dat nemá vliv na následné akce, které používají bloky dat.

V portálu Azure otevřete prostředek logické aplikace a pracovní postup v návrháři.
Pod akcí Parsování dokumentupostupujte podle těchto obecných kroků k přidání akce Datové operace s názvem Rozdělit text.
V návrháři vyberte akci Blok textu .
Jakmile se otevře podokno s informacemi o akci, na kartě Parametry u vlastnosti Strategie porcování vyberte TokenSize jako metodu porcování, pokud ještě není vybraná.

Strategie Popis

TokenSize Rozdělte zadaný obsah na základě počtu tokenů.
Po výběru strategie klikněte do Textového pole a určete obsah pro očlenění.

Zobrazí se možnosti seznamu dynamického obsahu (ikona blesku) a editoru výrazů (ikona funkce).
- Pokud chcete vybrat výstup z předchozí akce, vyberte seznam dynamického obsahu.
- Pokud chcete vytvořit výraz, který manipuluje s výstupem z předchozí akce, vyberte editor výrazů.
Tento příklad pokračuje výběrem ikony blesku pro seznam dynamického obsahu.
1. Po otevření seznamu dynamického obsahu vyberte požadovaný výstup z předchozí operace.
  
  V tomto příkladu akce Blok textu odkazuje na výstup analyzovaného výsledku z akce Parsovat dokument .
  
  V textovémpoli se teď zobrazuje výstup akce parsovaný výsledek:
Dokončete nastavení akce Blok textu na základě vybrané strategie a scénáře. Další informace naleznete v tématu Blok textu – referenční informace.

Strategie	Popis
TokenSize	Rozdělte zadaný obsah na základě počtu tokenů.

Když teď přidáte další akce, které očekávají a používají tokenizovaný vstup, jako jsou akce Azure AI, vstupní obsah se naformátuje pro snadnější spotřebu.

Textový blok – referenční dokumentace

Parametry

Jméno	Hodnota	Datový typ	Popis	Omezení
Strategie vytváření bloků dat	TokenSize	Řetězcový enum	Rozdělte obsah na základě počtu tokenů. Výchozí: TokenSize	Nelze použít
Text	< content-to-chunk>	Jakýkoliv	Obsah k rozdělení.	Průvodce referenčními informacemi o omezeních a konfiguraci
Kódovací model	< encoding-method>	Výčet typu string	Model kódování, který se má použít: - Výchozí: cl100k_base (gpt4, gpt-3.5-turbo, gpt-35-turbo) - r50k_base (gpt-3) - p50k_base (gpt-3) - p50k_edit (gpt-3) - cl200k_base (gpt-4o) Další informace najdete v tématu OpenAI – Přehled modelů.	Nelze použít
TokenSize	< max-tokens-per-chunk>	Celé číslo	Maximální počet tokenů na část obsahu. Výchozí: Žádné	Minimum: 1 Maximum: 8000
PageOverlapLength	< počet překrývajících se znaků>	Celé číslo	Počet znaků od konce předchozího bloku dat, které se mají zahrnout do dalšího bloku dat. Toto nastavení vám pomůže vyhnout se ztrátě důležitých informací při rozdělení obsahu do bloků dat a zachování kontinuity a kontextu mezi bloky dat. Výchozí hodnota: 0 – Neexistují žádné překrývající se znaky.	Minimum: 0

Tip

Pokud se chcete dozvědět víc, můžete se zeptat Azure Copilotu na tyto otázky:

Co je PageOverlapLength v chunkingu?
Co je kódování v Azure AI?

Pokud chcete najít Azure Copilot, na panelu nástrojů webu Azure Portal vyberte Copilot.

Výstupy

Jméno	Datový typ	Popis
Blokované textové položky výsledku	Pole řetězců	Pole řetězců.
Výsledky po částech Textová položka	Řetězec	Jediný řetězec v poli.
Výsledky po částech	Objekt	Objekt, který obsahuje celý segmentovaný text.

Ukázkový pracovní postup

Následující příklad obsahuje další akce, které vytvoří úplný vzor pracovního postupu pro příjem dat z libovolného zdroje:

Snímek obrazovky ukazuje kompletní ukázkový pracovní postup.

Krok	Úloha	Základní operace	Popis
1	Počkejte nebo zkontrolujte nový obsah.	Při přijetí požadavku HTTP	Trigger, který buď dotazuje, nebo čeká na doručení nových dat, buď na základě plánovaného opakování, nebo v reakci na specifické události. Taková událost může být nový soubor, který se nahraje do konkrétního systému úložiště, jako je Azure Blob Storage, SharePoint, OneDrive, Systém souborů, FTP atd. V tomto příkladu spouštěcí operace Požadavku čeká na požadavek HTTP nebo HTTPS odeslaný z jiného koncového bodu. Požadavek obsahuje adresu URL nového nahraného dokumentu.
2	Získejte obsah.	HTTP	Akce HTTP, která načte nahraný dokument pomocí adresy URL souboru z výstupu triggeru.
3	Sestavit podrobnosti dokumentu	Sestavení	Akce operací s daty, která zřetězí různé položky. Tento příklad spojuje informace o klíčích a hodnotách dokumentu.
4	Vytvořte řetězec tokenu.	Parsování dokumentu	Akce Operace s daty, která vytvoří tokenizovaný řetězec pomocí výstupu akce Vytvořit.
5	Vytváření bloků obsahu	Text úseku	Operace s daty, která rozdělí řetězec tokenu na části na základě počtu tokenů na kus obsahu.
6	Převést tokenizovaný a segmentovaný text na JSON.	Parsování formátu JSON	Operace s daty, která převádí zpracovaný výstup po částech na JSON pole.
7	Vyberte položky pole JSON.	Vybrat	Akce operace s daty, která vybere více položek z pole JSON.
8	Vygenerujte vnoření.	Získání více vložených objektů	Akce Azure OpenAI, která vytvoří vkládání pro každou položku pole JSON.
9	Vyberte vkládání a další informace.	Vybrat	Operace s daty, která zahrnuje výběr embeddingů a další informace o dokumentu.
10	Indexujte data.	Indexování dokumentů	Akce Azure AI Search, která indexuje data na základě každého vybraného vkládání.

Váš názor

Byla tato stránka užitečná?

Last updated on 2026-03-12

Sdílet prostřednictvím

Parsování dokumentů a textu bloku dat pro akce AI v pracovních postupech pro Azure Logic Apps

Známé problémy a omezení

Požadavky

Parsování dokumentu

Zpracování dokumentu - Reference

Parametry

Výstupy

Text bloku dat

Textový blok – referenční dokumentace

Parametry

Výstupy

Ukázkový pracovní postup

Související obsah

Váš názor

Další materiály