Kognitive Qualifikation „Dokumentextrahierung“

Die Qualifikation Dokumentextrahierung extrahiert Inhalt aus einer Datei innerhalb der Anreicherungspipeline. Auf diese Weise können Sie die Vorteile des Schritts der Dokumentextrahierung nutzen, der normalerweise vor der Ausführung des Skillsets mit Dateien erfolgt, die möglicherweise durch andere Qualifikationen generiert werden.

Hinweis

Dieser Skill ist nicht an Cognitive Services gebunden und verfügt über keine Cognitive Services-Schlüsselanforderung. Dieser Skill extrahiert Text und Bilder. Die Textextraktion ist kostenlos. Die Bildextraktion wird über Azure Cognitive Search abgerechnet. Bei einem kostenlosen Suchdienst werden die Kosten für 20 Transaktionen pro Indexer am Tag übernommen, sodass Sie Schnellstarts, Tutorials und kleine Projekte kostenlos abschließen können. Bei den Tarifen „Basic“ und „Standard“ sowie bei höheren Tarifen ist die Bildextraktion gebührenpflichtig.

@odata.type

Microsoft.Skills.Util.DocumentExtractionSkill

Unterstützte Dokumentformate

DocumentExtractionSkill kann Text aus den folgenden Dokumentformaten extrahieren:

Skillparameter

Bei den Parametern wird zwischen Groß- und Kleinschreibung unterschieden.

Eingaben Zulässige Werte BESCHREIBUNG
parsingMode default
text
json
Legen Sie diesen Parameter auf default fest, um die Dokumentextrahierung aus Dateien durchzuführen, die keine reinen Text- oder JSON-Dateien sind. Verwenden Sie für Quelldateien mit Markup (etwa PDF-, HTML-, RTF- und Microsoft Office-Dateien) den Standardwert, um nur den Text ohne Markupsprache oder Tags zu extrahieren. Wenn der Parameter parsingMode nicht explizit definiert ist, wird er auf default festgelegt.

Legen Sie text fest, wenn als Quelldateien TXT-Dateien verwendet werden. Dieser Analysemodus verbessert die Leistung für Nur-Text-Dateien. Wenn Dateien Markup enthalten, behält dieser Modus die Tags in der endgültigen Ausgabe bei.

Legen Sie diesen Parameter auf json fest, um strukturierte Inhalte aus JSON-Dateien zu extrahieren.
dataToExtract contentAndMetadata
allMetadata
Legen Sie diesen Parameter auf contentAndMetadata fest, um aus jeder Datei alle Metadaten und Textinhalte zu extrahieren. Wenn der Parameter dataToExtract nicht explizit definiert ist, wird er auf contentAndMetadata festgelegt.

Legen Sie diesen Parameter auf allMetadata fest, um nur die für den Inhaltstyp spezifischen Metadaten zu extrahieren (z. B. Metadaten, die nur für PNG-Dateien eindeutig sind).
configuration Siehe unten. Ein Wörterbuch mit optionalen Parametern zur Anpassung der Durchführung der Dokumentextrahierung. In der folgenden Tabelle finden Sie Beschreibungen der unterstützten Konfigurationseigenschaften.
Konfigurationsparameter Zulässige Werte BESCHREIBUNG
imageAction none
generateNormalizedImages
generateNormalizedImagePerPage
Legen Sie none fest, wenn eingebettete Bilder oder Bilddateien im Dataset ignoriert werden sollen bzw. wenn die Quelldaten keine Bilddateien enthalten. Dies ist die Standardoption.

Legen Sie diesen Parameter für die OCR- und Bildanalyse auf generateNormalizedImages fest, damit der Skill bei der Dokumententschlüsselung ein Array von normalisierten Bildern erstellt. Für diese Aktion ist es erforderlich, parsingMode auf default und dataToExtract auf contentAndMetadata festzulegen. Ein normalisiertes Bild bezieht sich auf eine zusätzliche Verarbeitung, die zu einer einheitlichen Bildausgabe führt. Für die Ausgabe wird die Größe angepasst, und sie wird gedreht, um das einheitliche Rendern zu fördern, wenn Sie Bilder in visuelle Suchergebnisse einbinden (z.B. Fotos gleicher Größe für ein Graphsteuerelement wie in der JFK-Demo). Diese Informationen werden bei Verwendung dieser Option für jedes Bild generiert.

Wenn Sie diesen Parameter auf generateNormalizedImagePerPage festlegen, werden PDF-Dateien anders behandelt. Anstatt eingebettete Bilder zu extrahieren, wird jede Seite als Bild gerendert und entsprechend normalisiert. Nicht-PDF-Dateitypen werden genauso behandelt, als ob der Parameter auf generateNormalizedImages festgelegt worden wäre.
normalizedImageMaxWidth Eine beliebige ganze Zahl zwischen 50-10000 Die maximale Breite (in Pixel) für generierte normalisierte Bilder. Der Standardwert ist „2000“.
normalizedImageMaxHeight Eine beliebige ganze Zahl zwischen 50-10000 Die maximale Höhe (in Pixel) für generierte normalisierte Bilder. Der Standardwert ist „2000“.

Hinweis

Der Standardwert von 2.000 Pixeln für die maximale Breite und Höhe der normalisierten Bilder basiert auf der maximal unterstützten Größe der OCR-Qualifikation und der Bildanalysequalifikation. Die OCR-Qualifikation unterstützt eine maximale Breite und Höhe von 4.200 für nicht englische Sprachen und 10.000 für Englisch. Wenn Sie die maximalen Grenzwerte erhöhen, können bei größeren Images je nach Skillsetdefinition und Sprache der Dokumente Fehler bei der Verarbeitung auftreten.

Skilleingaben

Eingabename BESCHREIBUNG
file_data Die Datei, aus der Inhalt extrahiert werden soll.

Die Eingabe „file_data“ muss ein Objekt sein, das wie folgt definiert wurde:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

Alternativ kann es wie folgt definiert werden:

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

Das Dateiverweisobjekt kann auf eine von drei Arten generiert werden:

  • Indem Sie den allowSkillsetToReadFileData-Parameters in Ihrer Indexerdefinition auf „true“ festlegen. Dadurch wird der Pfad /document/file_data erstellt, bei dem es sich um ein Objekt handelt, das die aus der Blobdatenquelle heruntergeladenen ursprünglichen Dateidaten darstellt. Dieser Parameter gilt nur für Dateien im Blobspeicher.

  • Indem Sie den imageAction-Parameters in Ihrer Indexerdefinition auf einen anderen Wert als none festlegen. Dadurch wird ein Array von Bildern erstellt, das die erforderliche Konvention für die Eingaben für diese Qualifikation erfüllt, wenn sie einzeln übermittelt werden (d. h. /document/normalized_images/*).

  • Indem Sie eine benutzerdefinierte Qualifikation ein JSON-Objekt zurückgeben lassen, das EXAKT wie oben definiert ist. Der $type Parameter muss genau auf file festgelegt werden und der data Parameter muss die Base64-codierten Bytearraydaten des Dateiinhalts sein – oder der url Parameter muss eine ordnungsgemäß formatierte URL mit Zugriff sein, um die Datei an diesem Speicherort herunterzuladen.

Skillausgaben

Ausgabename BESCHREIBUNG
content Der Textinhalt des Dokuments.
normalized_images Wenn imageAction auf einen anderen Wert als none festgelegt wird, enthält das neue Feld normalized_images ein Array von Bildern. Ausführlichere Informationen zum Ausgabeformat finden Sie unter Extrahieren von Text und Informationen aus Bildern in KI-Anreicherungsszenarios.

Beispieldefinition

 {
    "@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
    "parsingMode": "default",
    "dataToExtract": "contentAndMetadata",
    "configuration": {
        "imageAction": "generateNormalizedImages",
        "normalizedImageMaxWidth": 2000,
        "normalizedImageMaxHeight": 2000
    },
    "context": "/document",
    "inputs": [
      {
        "name": "file_data",
        "source": "/document/file_data"
      }
    ],
    "outputs": [
      {
        "name": "content",
        "targetName": "extracted_content"
      },
      {
        "name": "normalized_images",
        "targetName": "extracted_normalized_images"
      }
    ]
  }

Beispieleingabe

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "file_data": {
          "$type": "file",
          "data": "aGVsbG8="
        }
      }
    }
  ]
}

Beispielausgabe

{
  "values": [
    {
      "recordId": "1",
      "data": {
        "content": "hello",
        "normalized_images": []
      }
    }
  ]
}

Weitere Informationen