Kognitive Qualifikation „Dokumentextrahierung“

Artikel
11/15/2023

Die Qualifikation Dokumentextrahierung extrahiert Inhalt aus einer Datei innerhalb der Anreicherungspipeline. Auf diese Weise können Sie die Vorteile des Schritts der Dokumentextrahierung nutzen, der normalerweise vor der Ausführung des Skillsets mit Dateien erfolgt, die möglicherweise durch andere Qualifikationen generiert werden.

Hinweis

Dieser Skill ist nicht an Azure KI Services gebunden und hat keine Schlüsselanforderung für Azure KI Services. Dieser Skill extrahiert Text und Bilder. Die Textextraktion ist kostenlos. Die Bildextraktion wird von Azure KI Searchgetaktet. Bei einem kostenlosen Suchdienst werden die Kosten für 20 Transaktionen pro Indexer am Tag übernommen, sodass Sie Schnellstarts, Tutorials und kleine Projekte kostenlos abschließen können. Bei den Tarifen „Basic“ und „Standard“ sowie bei höheren Tarifen ist die Bildextraktion gebührenpflichtig.

@odata.type

Microsoft.Skills.Util.DocumentExtractionSkill

Unterstützte Dokumentformate

DocumentExtractionSkill kann Text aus den folgenden Dokumentformaten extrahieren:

CSV (siehe Indizierung von CSV-Blobs)
EML
EPUB
GZ
HTML
JSON (Siehe Indizierung von JSON-Blobs)
KML (XML für geografische Darstellungen)
Microsoft Office-Formate: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (Outlook-E-Mails), XML (WORD XML 2003 und 2006)
Öffnen von Dokumentformaten: ODT, ODS, ODP
PDF
Textdateien (Siehe auch Indizierung von Nur-Text)
RTF
XML
ZIP

Skillparameter

Bei den Parametern wird zwischen Groß- und Kleinschreibung unterschieden.

Eingaben Zulässige Werte Beschreibung

Eingaben	Zulässige Werte	Beschreibung
`parsingMode`	`default` `text` `json`	Legen Sie diesen Parameter auf `default` fest, um die Dokumentextrahierung aus Dateien durchzuführen, die keine reinen Text- oder JSON-Dateien sind. Verwenden Sie für Quelldateien mit Markup (etwa PDF-, HTML-, RTF- und Microsoft Office-Dateien) den Standardwert, um nur den Text ohne Markupsprache oder Tags zu extrahieren. Wenn der Parameter `parsingMode` nicht explizit definiert ist, wird er auf `default` festgelegt. Legen Sie `text` fest, wenn als Quelldateien TXT-Dateien verwendet werden. Dieser Analysemodus verbessert die Leistung für Nur-Text-Dateien. Wenn Dateien Markup enthalten, behält dieser Modus die Tags in der endgültigen Ausgabe bei. Legen Sie diesen Parameter auf `json` fest, um strukturierte Inhalte aus JSON-Dateien zu extrahieren.
`dataToExtract`	`contentAndMetadata` `allMetadata`	Legen Sie diesen Parameter auf `contentAndMetadata` fest, um aus jeder Datei alle Metadaten und Textinhalte zu extrahieren. Wenn der Parameter `dataToExtract` nicht explizit definiert ist, wird er auf `contentAndMetadata` festgelegt. Legen Sie diesen Parameter auf `allMetadata` fest, um nur die für den Inhaltstyp spezifischen Metadaten zu extrahieren (z. B. Metadaten, die nur für PNG-Dateien eindeutig sind).
`configuration`	Siehe unten.	Ein Wörterbuch mit optionalen Parametern zur Anpassung der Durchführung der Dokumentextrahierung. In der folgenden Tabelle finden Sie Beschreibungen der unterstützten Konfigurationseigenschaften.

parsingMode

default
text
json

Legen Sie diesen Parameter auf default fest, um die Dokumentextrahierung aus Dateien durchzuführen, die keine reinen Text- oder JSON-Dateien sind. Verwenden Sie für Quelldateien mit Markup (etwa PDF-, HTML-, RTF- und Microsoft Office-Dateien) den Standardwert, um nur den Text ohne Markupsprache oder Tags zu extrahieren. Wenn der Parameter parsingMode nicht explizit definiert ist, wird er auf default festgelegt.

Legen Sie text fest, wenn als Quelldateien TXT-Dateien verwendet werden. Dieser Analysemodus verbessert die Leistung für Nur-Text-Dateien. Wenn Dateien Markup enthalten, behält dieser Modus die Tags in der endgültigen Ausgabe bei.

Legen Sie diesen Parameter auf json fest, um strukturierte Inhalte aus JSON-Dateien zu extrahieren.

dataToExtract

contentAndMetadata
allMetadata

Legen Sie diesen Parameter auf contentAndMetadata fest, um aus jeder Datei alle Metadaten und Textinhalte zu extrahieren. Wenn der Parameter dataToExtract nicht explizit definiert ist, wird er auf contentAndMetadata festgelegt.

Legen Sie diesen Parameter auf allMetadata fest, um nur die für den Inhaltstyp spezifischen Metadaten zu extrahieren (z. B. Metadaten, die nur für PNG-Dateien eindeutig sind).

configuration Siehe unten. Ein Wörterbuch mit optionalen Parametern zur Anpassung der Durchführung der Dokumentextrahierung. In der folgenden Tabelle finden Sie Beschreibungen der unterstützten Konfigurationseigenschaften.

Konfigurationsparameter Zulässige Werte Beschreibung

Konfigurationsparameter	Zulässige Werte	Beschreibung
`imageAction`	`none` `generateNormalizedImages` `generateNormalizedImagePerPage`	Legen Sie `none` fest, wenn eingebettete Bilder oder Bilddateien im Dataset ignoriert werden sollen bzw. wenn die Quelldaten keine Bilddateien enthalten. Dies ist die Standardeinstellung. Legen Sie diesen Parameter für die OCR- und Bildanalyse auf `generateNormalizedImages` fest, damit der Skill bei der Dokumententschlüsselung ein Array von normalisierten Bildern erstellt. Für diese Aktion ist es erforderlich, `parsingMode` auf `default` und `dataToExtract` auf `contentAndMetadata` festzulegen. Ein normalisiertes Bild bezieht sich auf eine zusätzliche Verarbeitung, die zu einer einheitlichen Bildausgabe führt. Für die Ausgabe wird die Größe angepasst, und sie wird gedreht, um das einheitliche Rendern zu fördern, wenn Sie Bilder in visuelle Suchergebnisse einbinden (z.B. Fotos gleicher Größe für ein Graphsteuerelement wie in der JFK-Demo). Diese Informationen werden bei Verwendung dieser Option für jedes Bild generiert. Wenn Sie diesen Parameter auf `generateNormalizedImagePerPage` festlegen, werden PDF-Dateien anders behandelt. Anstatt eingebettete Bilder zu extrahieren, wird jede Seite als Bild gerendert und entsprechend normalisiert. Nicht-PDF-Dateitypen werden genauso behandelt, als ob der Parameter auf `generateNormalizedImages` festgelegt worden wäre.
`normalizedImageMaxWidth`	Eine beliebige ganze Zahl zwischen 50-10000	Die maximale Breite (in Pixel) für generierte normalisierte Bilder. Der Standardwert ist „2000“.
`normalizedImageMaxHeight`	Eine beliebige ganze Zahl zwischen 50-10000	Die maximale Höhe (in Pixel) für generierte normalisierte Bilder. Der Standardwert ist „2000“.

imageAction

none
generateNormalizedImages
generateNormalizedImagePerPage

Legen Sie none fest, wenn eingebettete Bilder oder Bilddateien im Dataset ignoriert werden sollen bzw. wenn die Quelldaten keine Bilddateien enthalten. Dies ist die Standardeinstellung.

Legen Sie diesen Parameter für die OCR- und Bildanalyse auf generateNormalizedImages fest, damit der Skill bei der Dokumententschlüsselung ein Array von normalisierten Bildern erstellt. Für diese Aktion ist es erforderlich, parsingMode auf default und dataToExtract auf contentAndMetadata festzulegen. Ein normalisiertes Bild bezieht sich auf eine zusätzliche Verarbeitung, die zu einer einheitlichen Bildausgabe führt. Für die Ausgabe wird die Größe angepasst, und sie wird gedreht, um das einheitliche Rendern zu fördern, wenn Sie Bilder in visuelle Suchergebnisse einbinden (z.B. Fotos gleicher Größe für ein Graphsteuerelement wie in der JFK-Demo). Diese Informationen werden bei Verwendung dieser Option für jedes Bild generiert.

Wenn Sie diesen Parameter auf generateNormalizedImagePerPage festlegen, werden PDF-Dateien anders behandelt. Anstatt eingebettete Bilder zu extrahieren, wird jede Seite als Bild gerendert und entsprechend normalisiert. Nicht-PDF-Dateitypen werden genauso behandelt, als ob der Parameter auf generateNormalizedImages festgelegt worden wäre.

normalizedImageMaxWidth Eine beliebige ganze Zahl zwischen 50-10000 Die maximale Breite (in Pixel) für generierte normalisierte Bilder. Der Standardwert ist „2000“.

normalizedImageMaxHeight Eine beliebige ganze Zahl zwischen 50-10000 Die maximale Höhe (in Pixel) für generierte normalisierte Bilder. Der Standardwert ist „2000“.

Hinweis

Der Standardwert von 2.000 Pixeln für die maximale Breite und Höhe der normalisierten Bilder basiert auf der maximal unterstützten Größe der OCR-Qualifikation und der Bildanalysequalifikation. Die OCR-Qualifikation unterstützt eine maximale Breite und Höhe von 4.200 für nicht englische Sprachen und 10.000 für Englisch. Wenn Sie die maximalen Grenzwerte erhöhen, können bei größeren Images je nach Skillsetdefinition und Sprache der Dokumente Fehler bei der Verarbeitung auftreten.

Skilleingaben

Eingabename	Beschreibung
`file_data`	Die Datei, aus der Inhalt extrahiert werden soll.

Die Eingabe „file_data“ muss ein Objekt sein, das wie folgt definiert wurde:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

Alternativ kann es wie folgt definiert werden:

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

Das Dateiverweisobjekt kann auf eine von drei Arten generiert werden:

Indem Sie den allowSkillsetToReadFileData-Parameters in Ihrer Indexerdefinition auf „true“ festlegen. Dadurch wird der Pfad /document/file_data erstellt, bei dem es sich um ein Objekt handelt, das die aus der Blobdatenquelle heruntergeladenen ursprünglichen Dateidaten darstellt. Dieser Parameter gilt nur für Dateien im Blobspeicher.
Indem Sie den imageAction-Parameters in Ihrer Indexerdefinition auf einen anderen Wert als none festlegen. Dadurch wird ein Array von Bildern erstellt, das die erforderliche Konvention für die Eingaben für diese Qualifikation erfüllt, wenn sie einzeln übermittelt werden (d. h. /document/normalized_images/*).
Indem Sie eine benutzerdefinierte Qualifikation ein JSON-Objekt zurückgeben lassen, das EXAKT wie oben definiert ist. Der $type Parameter muss genau auf file festgelegt werden und der data Parameter muss die Base64-codierten Bytearraydaten des Dateiinhalts sein – oder der url Parameter muss eine ordnungsgemäß formatierte URL mit Zugriff sein, um die Datei an diesem Speicherort herunterzuladen.

Skillausgaben

Ausgabename	Beschreibung
`content`	Der Textinhalt des Dokuments.
`normalized_images`	Wenn `imageAction` auf einen anderen Wert als `none` festgelegt wird, enthält das neue Feld normalized_images ein Array von Bildern. Ausführlichere Informationen zum Ausgabeformat finden Sie unter Extrahieren von Text und Informationen aus Bildern in KI-Anreicherungsszenarios.

Beispieldefinition

 {
    "@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
    "parsingMode": "default",
    "dataToExtract": "contentAndMetadata",
    "configuration": {
        "imageAction": "generateNormalizedImages",
        "normalizedImageMaxWidth": 2000,
        "normalizedImageMaxHeight": 2000
    },
    "context": "/document",
    "inputs": [
      {
        "name": "file_data",
        "source": "/document/file_data"
      }
    ],
    "outputs": [
      {
        "name": "content",
        "targetName": "extracted_content"
      },
      {
        "name": "normalized_images",
        "targetName": "extracted_normalized_images"
      }
    ]
  }

Beispieleingabe

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "file_data": {
          "$type": "file",
          "data": "aGVsbG8="
        }
      }
    }
  ]
}

Beispielausgabe

{
  "values": [
    {
      "recordId": "1",
      "data": {
        "content": "hello",
        "normalized_images": []
      }
    }
  ]
}