Cognitieve vaardigheid documentextractie

De vaardigheid Documentextractie extraheert inhoud uit een bestand in de verrijkingspijplijn. Hierdoor kunt u profiteren van de stap voor documentextractie die normaal gesproken plaatsvindt voordat de vaardighedenset wordt uitgevoerd met bestanden die kunnen worden gegenereerd door andere vaardigheden.

Notitie

Deze vaardigheid is niet gebonden aan Azure AI-services en heeft geen sleutelvereiste voor Azure AI-services. Met deze vaardigheid worden tekst en afbeeldingen geëxtraheerd. Tekstextractie is gratis. Afbeeldingsextractie wordt gemeten door Azure AI Search. Bij een gratis zoekservice worden de kosten van 20 transacties per indexeerfunctie per dag opgenomen, zodat u snelstartgidsen, zelfstudies en kleine projecten gratis kunt voltooien. Voor Basic, Standard en hoger is het extraheren van afbeeldingen factureerbaar.

@odata.type

Microsoft.Skills.Util.DocumentExtractionSkill

Ondersteunde documentindelingen

DocumentExtractionSkill kan tekst extraheren uit de volgende documentindelingen:

  • CSV (zie CSV-blobs indexeren)
  • EML
  • EPUB
  • GZ
  • HTML
  • JSON (zie JSON-blobs indexeren)
  • KML (XML voor geografische weergaven)
  • Microsoft Office-indelingen: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (e-mailberichten van Outlook), XML (zowel 2003 als 2006 WORD XML)
  • Documentindelingen openen: ODT, ODS, ODP
  • PDF
  • Tekstbestanden zonder opmaak (zie ook Indexering van tekst zonder opmaak)
  • RTF
  • XML
  • ZIP

Vaardigheidsparameters

Parameters zijn hoofdlettergevoelig.

Invoerwaarden Toegestane waarden Beschrijving
parsingMode default
text
json
Ingesteld op default voor documentextractie van bestanden die geen pure tekst of json zijn. Voor bronbestanden die markeringen bevatten (zoals PDF-, HTML-, RTF- en Microsoft Office-bestanden), gebruikt u de standaardinstelling om alleen de tekst te extraheren, min eventuele opmaaktaal of tags. Als parsingMode deze niet expliciet is gedefinieerd, wordt deze ingesteld op default.

Ingesteld op text of bronbestanden TXT zijn. Deze parseermodus verbetert de prestaties van tekstbestanden zonder opmaak. Als bestanden markeringen bevatten, blijven de tags in de uiteindelijke uitvoer behouden in deze modus.

Ingesteld op het json extraheren van gestructureerde inhoud uit json-bestanden.
dataToExtract contentAndMetadata
allMetadata
Ingesteld op contentAndMetadata het extraheren van alle metagegevens en tekstuele inhoud uit elk bestand. Als dataToExtract deze niet expliciet is gedefinieerd, wordt deze ingesteld op contentAndMetadata.

Ingesteld om allMetadata alleen de metagegevenseigenschappen voor het inhoudstype te extraheren (bijvoorbeeld metagegevens die uniek zijn voor alleen PNG-bestanden).
configuration Zie hieronder. Een woordenlijst met optionele parameters die aanpassen hoe de documentextractie wordt uitgevoerd. Zie de onderstaande tabel voor beschrijvingen van ondersteunde configuratie-eigenschappen.
Configuratieparameter Toegestane waarden Beschrijving
imageAction none
generateNormalizedImages
generateNormalizedImagePerPage
Stel deze optie in om none ingesloten afbeeldingen of afbeeldingsbestanden in de gegevensset te negeren of als de brongegevens geen afbeeldingsbestanden bevatten. Dit is de standaardinstelling.

Voor OCR- en afbeeldingsanalyse moet generateNormalizedImages de vaardigheid een matrix van genormaliseerde afbeeldingen maken als onderdeel van het kraken van documenten. Deze actie vereist dat parsingMode is ingesteld op default en dataToExtract is ingesteld op contentAndMetadata. Een genormaliseerde afbeelding verwijst naar extra verwerking, wat resulteert in uniforme afbeeldingsuitvoer, grootte en gedraaid om consistente rendering te bevorderen wanneer u afbeeldingen in visuele zoekresultaten opneemt (bijvoorbeeld foto's van dezelfde grootte in een grafiekbesturingselement zoals wordt weergegeven in de JFK-demo). Deze informatie wordt gegenereerd voor elke afbeelding wanneer u deze optie gebruikt.

Als u deze optie instelt generateNormalizedImagePerPage, worden PDF-bestanden anders behandeld in plaats van ingesloten afbeeldingen te extraheren, wordt elke pagina weergegeven als een afbeelding en dienovereenkomstig genormaliseerd. Niet-PDF-bestandstypen worden hetzelfde behandeld als als is generateNormalizedImages ingesteld.
normalizedImageMaxWidth Een geheel getal tussen 50-10000 De maximale breedte (in pixels) voor genormaliseerde afbeeldingen die worden gegenereerd. De standaardwaarde is 2000.
normalizedImageMaxHeight Een geheel getal tussen 50-10000 De maximale hoogte (in pixels) voor genormaliseerde afbeeldingen die worden gegenereerd. De standaardwaarde is 2000.

Notitie

De standaardwaarde van 2000 pixels voor de genormaliseerde afbeeldingen maximale breedte en hoogte is gebaseerd op de maximale grootten die worden ondersteund door de OCR-vaardigheid en de vaardigheid voor afbeeldingsanalyse. De OCR-vaardigheid ondersteunt een maximale breedte en hoogte van 4200 voor niet-Engelse talen en 10000 voor Engels. Als u de maximale limieten verhoogt, kan de verwerking mislukken op grotere afbeeldingen, afhankelijk van de definitie van uw vaardighedenset en de taal van de documenten.

Invoer van vaardigheden

Invoernaam Beschrijving
file_data Het bestand waaruit inhoud moet worden geëxtraheerd.

De invoer 'file_data' moet een object zijn dat is gedefinieerd als:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

U kunt deze ook definiëren als:

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

Het bestandsverwijzingsobject kan op drie manieren worden gegenereerd:

  • Stel de parameter in de allowSkillsetToReadFileData definitie van de indexeerfunctie in op 'true'. Hiermee maakt u een pad /document/file_data dat een object is dat de oorspronkelijke bestandsgegevens vertegenwoordigt die zijn gedownload uit uw blobgegevensbron. Deze parameter is alleen van toepassing op bestanden in Blob Storage.

  • De parameter voor de imageAction definitie van de indexeerfunctie instellen op een andere waarde dan none. Hiermee maakt u een matrix met afbeeldingen die de vereiste conventie volgen voor invoer voor deze vaardigheid als deze afzonderlijk wordt doorgegeven (dat wil /document/normalized_images/*wel).

  • Als u een aangepaste vaardigheid hebt, retourneert u een json-object dat exact zoals hierboven is gedefinieerd. De $type parameter moet exact file worden ingesteld en de data parameter moet de base 64-matrixgegevens van de bestandsinhoud zijn, of de url parameter moet een correct opgemaakte URL zijn met toegang tot het downloaden van het bestand op die locatie.

Uitvoer van vaardigheden

Uitvoernaam Beschrijving
content De tekstuele inhoud van het document.
normalized_images Wanneer de imageAction waarde is ingesteld op een andere waarde dan none, bevat het nieuwe normalized_images veld een matrix met afbeeldingen. Zie Tekst en informatie uit afbeeldingen extraheren voor meer informatie over de uitvoerindeling.

Voorbeelddefinitie

 {
    "@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
    "parsingMode": "default",
    "dataToExtract": "contentAndMetadata",
    "configuration": {
        "imageAction": "generateNormalizedImages",
        "normalizedImageMaxWidth": 2000,
        "normalizedImageMaxHeight": 2000
    },
    "context": "/document",
    "inputs": [
      {
        "name": "file_data",
        "source": "/document/file_data"
      }
    ],
    "outputs": [
      {
        "name": "content",
        "targetName": "extracted_content"
      },
      {
        "name": "normalized_images",
        "targetName": "extracted_normalized_images"
      }
    ]
  }

Voorbeeldinvoer

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "file_data": {
          "$type": "file",
          "data": "aGVsbG8="
        }
      }
    }
  ]
}

Voorbeelduitvoer

{
  "values": [
    {
      "recordId": "1",
      "data": {
        "content": "hello",
        "normalized_images": []
      }
    }
  ]
}

Zie ook