Kognitivní dovednost extrakce dokumentů

Článek
11/15/2023

Dovednost extrakce dokumentů extrahuje obsah ze souboru v rámci kanálu rozšiřování. To vám umožní využít krok extrakce dokumentů, který se obvykle děje před spuštěním sady dovedností se soubory, které mohou být generovány jinými dovednostmi.

Poznámka:

Tato dovednost není vázána na služby Azure AI a nemá žádný klíčový požadavek na služby Azure AI. Tato dovednost extrahuje text a obrázky. Extrakce textu je volná. Extrakce obrázků se měří službou Azure AI Search. V bezplatné vyhledávací službě se náklady na 20 transakcí za den absorbují, abyste mohli provádět rychlé starty, kurzy a malé projekty bez poplatků. Pro základní, standardní a vyšší je extrakce obrázků fakturovatelná.

@odata.type

Microsoft.Skills.Util.DocumentExtractionSkill

Podporované formáty dokumentů

DocumentExtractionSkill může extrahovat text z následujících formátů dokumentu:

CSV (viz indexování objektů blob CSV)
EML
EPUB
GZ
HTML
JSON (viz indexování objektů blob JSON)
KML (XML pro geografické reprezentace)
formáty systém Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPTM, MSG (e-maily Outlooku), XML (2003 i 2006 WORD XML)
Formáty otevřených dokumentů: ODT, ODS, ODP
PDF
Soubory ve formátu prostého textu (viz také indexování prostého textu)
RTF
XML
ZIP

Parametry dovedností

Parametry rozlišují malá a velká písmena.

Vstupy Povolené hodnoty Popis

Vstupy	Povolené hodnoty	Popis
`parsingMode`	`default` `text` `json`	Nastavte na `default` extrakci dokumentů ze souborů, které nejsou čistým textem nebo json. U zdrojových souborů, které obsahují označení (například SOUBORY PDF, HTML, RTF a systém Microsoft Office), použijte výchozí nastavení k extrahování jenom textu a bez jakýchkoli značek nebo značek. Pokud `parsingMode` není definován explicitně, nastaví se na `default`hodnotu . Nastavte, `text` jestli jsou zdrojové soubory TXT. Tento režim analýzy zlepšuje výkon u souborů ve formátu prostého textu. Pokud soubory obsahují značky, tento režim zachová značky v konečném výstupu. Nastavte na `json` extrahování strukturovaného obsahu ze souborů JSON.
`dataToExtract`	`contentAndMetadata` `allMetadata`	Nastavte na `contentAndMetadata` extrahování všech metadat a textového obsahu z každého souboru. Pokud `dataToExtract` není definován explicitně, nastaví se na `contentAndMetadata`hodnotu . Nastavte na `allMetadata` extrahování pouze vlastností metadat pro typ obsahu (například metadata jedinečná pouze pro .png soubory).
`configuration`	Viz níže.	Slovník volitelných parametrů, které upravují způsob provedení extrakce dokumentů. Popis podporovaných vlastností konfigurace najdete v následující tabulce.

parsingMode

default
text
json

Nastavte na default extrakci dokumentů ze souborů, které nejsou čistým textem nebo json. U zdrojových souborů, které obsahují označení (například SOUBORY PDF, HTML, RTF a systém Microsoft Office), použijte výchozí nastavení k extrahování jenom textu a bez jakýchkoli značek nebo značek. Pokud parsingMode není definován explicitně, nastaví se na defaulthodnotu .

Nastavte, text jestli jsou zdrojové soubory TXT. Tento režim analýzy zlepšuje výkon u souborů ve formátu prostého textu. Pokud soubory obsahují značky, tento režim zachová značky v konečném výstupu.

Nastavte na json extrahování strukturovaného obsahu ze souborů JSON.

dataToExtract

contentAndMetadata
allMetadata

Nastavte na contentAndMetadata extrahování všech metadat a textového obsahu z každého souboru. Pokud dataToExtract není definován explicitně, nastaví se na contentAndMetadatahodnotu .

Nastavte na allMetadata extrahování pouze vlastností metadat pro typ obsahu (například metadata jedinečná pouze pro .png soubory).

configuration Viz níže. Slovník volitelných parametrů, které upravují způsob provedení extrakce dokumentů. Popis podporovaných vlastností konfigurace najdete v následující tabulce.

Parametr konfigurace Povolené hodnoty Popis

Parametr konfigurace	Povolené hodnoty	Popis
`imageAction`	`none` `generateNormalizedImages` `generateNormalizedImagePerPage`	Pokud chcete `none` ignorovat vložené obrázky nebo soubory obrázků v sadě dat nebo pokud zdrojová data neobsahují soubory obrázků. Tato možnost je výchozí. V případě analýzy OCR a obrázků nastavte, aby `generateNormalizedImages` dovednost vytvářela pole normalizovaných obrázků jako součást prolomení dokumentu. Tato akce vyžaduje, aby `parsingMode` byla nastavena `default` a `dataToExtract` nastavena na `contentAndMetadata`hodnotu . Normalizovaný obrázek odkazuje na dodatečné zpracování, které vede k jednotnému výstupu obrázku, velikosti a otočení, aby se při zahrnutí obrázků do výsledků vizuálního hledání zobrazily obrázky (například fotografie stejné velikosti v ovládacím prvku grafu, jak je vidět v ukázce JFK). Tyto informace se generují pro každou image při použití této možnosti. Pokud nastavíte `generateNormalizedImagePerPage`, soubory PDF se zachází jinak než s extrahováním vložených obrázků, každá stránka se vykresluje jako obrázek a odpovídajícím způsobem normalizuje. Typy souborů, které nejsou pdf, se považují za stejné, jako kdyby `generateNormalizedImages` byly nastaveny.
`normalizedImageMaxWidth`	Jakékoli celé číslo mezi 50–10000	Maximální šířka (v pixelech) pro normalizované obrázky generované. Výchozí hodnota je 2000.
`normalizedImageMaxHeight`	Jakékoli celé číslo mezi 50–10000	Maximální výška (v pixelech) pro vygenerované normalizované obrázky. Výchozí hodnota je 2000.

imageAction

none
generateNormalizedImages
generateNormalizedImagePerPage

Pokud chcete none ignorovat vložené obrázky nebo soubory obrázků v sadě dat nebo pokud zdrojová data neobsahují soubory obrázků. Tato možnost je výchozí.

V případě analýzy OCR a obrázků nastavte, aby generateNormalizedImages dovednost vytvářela pole normalizovaných obrázků jako součást prolomení dokumentu. Tato akce vyžaduje, aby parsingMode byla nastavena default a dataToExtract nastavena na contentAndMetadatahodnotu . Normalizovaný obrázek odkazuje na dodatečné zpracování, které vede k jednotnému výstupu obrázku, velikosti a otočení, aby se při zahrnutí obrázků do výsledků vizuálního hledání zobrazily obrázky (například fotografie stejné velikosti v ovládacím prvku grafu, jak je vidět v ukázce JFK). Tyto informace se generují pro každou image při použití této možnosti.

Pokud nastavíte generateNormalizedImagePerPage, soubory PDF se zachází jinak než s extrahováním vložených obrázků, každá stránka se vykresluje jako obrázek a odpovídajícím způsobem normalizuje. Typy souborů, které nejsou pdf, se považují za stejné, jako kdyby generateNormalizedImages byly nastaveny.

normalizedImageMaxWidth Jakékoli celé číslo mezi 50–10000 Maximální šířka (v pixelech) pro normalizované obrázky generované. Výchozí hodnota je 2000.

normalizedImageMaxHeight Jakékoli celé číslo mezi 50–10000 Maximální výška (v pixelech) pro vygenerované normalizované obrázky. Výchozí hodnota je 2000.

Poznámka:

Výchozí hodnota 2000 pixelů pro normalizované obrázky maximální šířky a výšky je založená na maximální velikosti podporované dovedností OCR a dovedností analýzy obrázků. Dovednost OCR podporuje maximální šířku a výšku 4200 pro neanglické jazyky a 1 0000 pro angličtinu. Pokud zvýšíte maximální limity, zpracování může selhat na větších obrázcích v závislosti na definici sady dovedností a jazyce dokumentů.

Vstupy dovedností

Název vstupu	Popis
`file_data`	Soubor, ze kterého se má obsah extrahovat.

Vstup "file_data" musí být objekt definovaný takto:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

Alternativně se dá definovat takto:

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

Objekt odkazu na soubor lze vygenerovat jedním ze tří způsobů:

Nastavení parametru v definici indexeru allowSkillsetToReadFileData na hodnotu true Tím se vytvoří cesta /document/file_data , která představuje původní data souboru stažená z vašeho zdroje dat objektů blob. Tento parametr platí jenom pro soubory v úložišti objektů blob.
Nastavení parametru v definici indexeru imageAction na jinou hodnotu než none. Tím se vytvoří pole obrázků, které se řídí požadovanou konvencí pro vstup do této dovednosti, pokud jsou předány jednotlivě (to znamená /document/normalized_images/*).
Vlastní dovednost vrátí objekt JSON definovaný PŘESNĚ jako výše. Parametr $type musí být nastaven přesně file a data parametr musí být základní 64 kódovaná bajtová data obsahu souboru nebo url parametr musí být správně naformátovaná adresa URL s přístupem ke stažení souboru v daném umístění.

Výstupy dovedností

Název výstupu	Popis
`content`	Textový obsah dokumentu.
`normalized_images`	`imageAction` Pokud je nastavena na jinou hodnotu než `none`, nové pole normalized_images obsahuje pole obrázků. Další podrobnosti o výstupním formátu najdete v tématu Extrakce textu a informací z obrázků .

Ukázková definice

 {
    "@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
    "parsingMode": "default",
    "dataToExtract": "contentAndMetadata",
    "configuration": {
        "imageAction": "generateNormalizedImages",
        "normalizedImageMaxWidth": 2000,
        "normalizedImageMaxHeight": 2000
    },
    "context": "/document",
    "inputs": [
      {
        "name": "file_data",
        "source": "/document/file_data"
      }
    ],
    "outputs": [
      {
        "name": "content",
        "targetName": "extracted_content"
      },
      {
        "name": "normalized_images",
        "targetName": "extracted_normalized_images"
      }
    ]
  }

Ukázkový vstup

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "file_data": {
          "$type": "file",
          "data": "aGVsbG8="
        }
      }
    }
  ]
}

Ukázkový výstup

{
  "values": [
    {
      "recordId": "1",
      "data": {
        "content": "hello",
        "normalized_images": []
      }
    }
  ]
}

Sdílet prostřednictvím