Cognitieve vaardigheid documentextractie
De vaardigheid Documentextractie extraheert inhoud uit een bestand in de verrijkingspijplijn. Hierdoor kunt u profiteren van de stap voor documentextractie die normaal gesproken plaatsvindt voordat de vaardighedenset wordt uitgevoerd met bestanden die kunnen worden gegenereerd door andere vaardigheden.
Notitie
Deze vaardigheid is niet gebonden aan Azure AI-services en heeft geen sleutelvereiste voor Azure AI-services. Met deze vaardigheid worden tekst en afbeeldingen geëxtraheerd. Tekstextractie is gratis. Afbeeldingsextractie wordt gemeten door Azure AI Search. Bij een gratis zoekservice worden de kosten van 20 transacties per indexeerfunctie per dag opgenomen, zodat u snelstartgidsen, zelfstudies en kleine projecten gratis kunt voltooien. Voor Basic, Standard en hoger is het extraheren van afbeeldingen factureerbaar.
@odata.type
Microsoft.Skills.Util.DocumentExtractionSkill
Ondersteunde documentindelingen
DocumentExtractionSkill kan tekst extraheren uit de volgende documentindelingen:
- CSV (zie CSV-blobs indexeren)
- EML
- EPUB
- GZ
- HTML
- JSON (zie JSON-blobs indexeren)
- KML (XML voor geografische weergaven)
- Microsoft Office-indelingen: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (e-mailberichten van Outlook), XML (zowel 2003 als 2006 WORD XML)
- Documentindelingen openen: ODT, ODS, ODP
- Tekstbestanden zonder opmaak (zie ook Indexering van tekst zonder opmaak)
- RTF
- XML
- ZIP
Vaardigheidsparameters
Parameters zijn hoofdlettergevoelig.
Invoerwaarden | Toegestane waarden | Beschrijving |
---|---|---|
parsingMode |
default text json |
Ingesteld op default voor documentextractie van bestanden die geen pure tekst of json zijn. Voor bronbestanden die markeringen bevatten (zoals PDF-, HTML-, RTF- en Microsoft Office-bestanden), gebruikt u de standaardinstelling om alleen de tekst te extraheren, min eventuele opmaaktaal of tags. Als parsingMode deze niet expliciet is gedefinieerd, wordt deze ingesteld op default . Ingesteld op text of bronbestanden TXT zijn. Deze parseermodus verbetert de prestaties van tekstbestanden zonder opmaak. Als bestanden markeringen bevatten, blijven de tags in de uiteindelijke uitvoer behouden in deze modus. Ingesteld op het json extraheren van gestructureerde inhoud uit json-bestanden. |
dataToExtract |
contentAndMetadata allMetadata |
Ingesteld op contentAndMetadata het extraheren van alle metagegevens en tekstuele inhoud uit elk bestand. Als dataToExtract deze niet expliciet is gedefinieerd, wordt deze ingesteld op contentAndMetadata . Ingesteld om allMetadata alleen de metagegevenseigenschappen voor het inhoudstype te extraheren (bijvoorbeeld metagegevens die uniek zijn voor alleen .png bestanden). |
configuration |
Zie hieronder. | Een woordenlijst met optionele parameters die aanpassen hoe de documentextractie wordt uitgevoerd. Zie de onderstaande tabel voor beschrijvingen van ondersteunde configuratie-eigenschappen. |
Configuratieparameter | Toegestane waarden | Beschrijving |
---|---|---|
imageAction |
none generateNormalizedImages generateNormalizedImagePerPage |
Stel deze optie in om none ingesloten afbeeldingen of afbeeldingsbestanden in de gegevensset te negeren of als de brongegevens geen afbeeldingsbestanden bevatten. Dit is de standaardinstelling. Voor OCR- en afbeeldingsanalyse moet generateNormalizedImages de vaardigheid een matrix van genormaliseerde afbeeldingen maken als onderdeel van het kraken van documenten. Deze actie vereist dat parsingMode is ingesteld op default en dataToExtract is ingesteld op contentAndMetadata . Een genormaliseerde afbeelding verwijst naar extra verwerking, wat resulteert in uniforme afbeeldingsuitvoer, grootte en gedraaid om consistente rendering te bevorderen wanneer u afbeeldingen in visuele zoekresultaten opneemt (bijvoorbeeld foto's van dezelfde grootte in een grafiekbesturingselement zoals wordt weergegeven in de JFK-demo). Deze informatie wordt gegenereerd voor elke afbeelding wanneer u deze optie gebruikt. Als u deze optie instelt generateNormalizedImagePerPage , worden PDF-bestanden anders behandeld in plaats van ingesloten afbeeldingen te extraheren, wordt elke pagina weergegeven als een afbeelding en dienovereenkomstig genormaliseerd. Niet-PDF-bestandstypen worden hetzelfde behandeld als als is generateNormalizedImages ingesteld. |
normalizedImageMaxWidth |
Een geheel getal tussen 50-10000 | De maximale breedte (in pixels) voor genormaliseerde afbeeldingen die worden gegenereerd. De standaardwaarde is 2000. |
normalizedImageMaxHeight |
Een geheel getal tussen 50-10000 | De maximale hoogte (in pixels) voor genormaliseerde afbeeldingen die worden gegenereerd. De standaardwaarde is 2000. |
Notitie
De standaardwaarde van 2000 pixels voor de genormaliseerde afbeeldingen maximale breedte en hoogte is gebaseerd op de maximale grootten die worden ondersteund door de OCR-vaardigheid en de vaardigheid voor afbeeldingsanalyse. De OCR-vaardigheid ondersteunt een maximale breedte en hoogte van 4200 voor niet-Engelse talen en 10000 voor Engels. Als u de maximale limieten verhoogt, kan de verwerking mislukken op grotere afbeeldingen, afhankelijk van de definitie van uw vaardighedenset en de taal van de documenten.
Invoer van vaardigheden
Invoernaam | Beschrijving |
---|---|
file_data |
Het bestand waaruit inhoud moet worden geëxtraheerd. |
De invoer 'file_data' moet een object zijn dat is gedefinieerd als:
{
"$type": "file",
"data": "BASE64 encoded string of the file"
}
U kunt deze ook definiëren als:
{
"$type": "file",
"url": "URL to download file",
"sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}
Het bestandsverwijzingsobject kan op drie manieren worden gegenereerd:
Stel de parameter in de
allowSkillsetToReadFileData
definitie van de indexeerfunctie in op 'true'. Hiermee maakt u een pad/document/file_data
dat een object is dat de oorspronkelijke bestandsgegevens vertegenwoordigt die zijn gedownload uit uw blobgegevensbron. Deze parameter is alleen van toepassing op bestanden in Blob Storage.De parameter voor de
imageAction
definitie van de indexeerfunctie instellen op een andere waarde dannone
. Hiermee maakt u een matrix met afbeeldingen die de vereiste conventie volgen voor invoer voor deze vaardigheid als deze afzonderlijk wordt doorgegeven (dat wil/document/normalized_images/*
wel).Als u een aangepaste vaardigheid hebt, retourneert u een json-object dat exact zoals hierboven is gedefinieerd. De
$type
parameter moet exactfile
worden ingesteld en dedata
parameter moet de base 64-matrixgegevens van de bestandsinhoud zijn, of deurl
parameter moet een correct opgemaakte URL zijn met toegang tot het downloaden van het bestand op die locatie.
Uitvoer van vaardigheden
Uitvoernaam | Beschrijving |
---|---|
content |
De tekstuele inhoud van het document. |
normalized_images |
Wanneer de imageAction waarde is ingesteld op een andere waarde dan none , bevat het nieuwe normalized_images veld een matrix met afbeeldingen. Zie Tekst en informatie uit afbeeldingen extraheren voor meer informatie over de uitvoerindeling. |
Voorbeelddefinitie
{
"@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
"parsingMode": "default",
"dataToExtract": "contentAndMetadata",
"configuration": {
"imageAction": "generateNormalizedImages",
"normalizedImageMaxWidth": 2000,
"normalizedImageMaxHeight": 2000
},
"context": "/document",
"inputs": [
{
"name": "file_data",
"source": "/document/file_data"
}
],
"outputs": [
{
"name": "content",
"targetName": "extracted_content"
},
{
"name": "normalized_images",
"targetName": "extracted_normalized_images"
}
]
}
Voorbeeldinvoer
{
"values": [
{
"recordId": "1",
"data":
{
"file_data": {
"$type": "file",
"data": "aGVsbG8="
}
}
}
]
}
Voorbeelduitvoer
{
"values": [
{
"recordId": "1",
"data": {
"content": "hello",
"normalized_images": []
}
}
]
}