Dokumentumkinyerési kognitív képesség
A Dokumentumkinyerési képesség kinyeri a tartalmat egy fájlból a bővítési folyamaton belül. Ez lehetővé teszi, hogy kihasználja a dokumentum kinyerési lépését, amely általában a készségkészlet végrehajtása előtt történik olyan fájlokkal, amelyeket más készségek hozhatnak létre.
Feljegyzés
Ez a képesség nem kötődik az Azure AI-szolgáltatásokhoz, és nincs Azure AI-szolgáltatások kulcskövetelménye. Ez a képesség kinyeri a szöveget és a képeket. A szöveg kinyerése ingyenes. A rendszerkép-kinyerés mérése az Azure AI Search szolgáltatással történik. Egy ingyenes keresési szolgáltatásban az indexelőnkénti napi 20 tranzakció költsége elnyelődik, így ingyenesen végezhet gyorsútmutatókat, oktatóanyagokat és kisebb projekteket. Alapszintű, Standard és újabb verziók esetén a rendszerképek kinyerése számlázható.
@odata.type
Microsoft.Skills.Util.DocumentExtractionSkill
Támogatott dokumentumformátumok
A DocumentExtractionSkill a következő dokumentumformátumokból tud szöveget kinyerni:
- CSV (lásd : CSV-blobok indexelése)
- EML
- EPUB
- GZ
- HTML
- JSON (lásd : JSON-blobok indexelése)
- KML (XML földrajzi ábrázolásokhoz)
- Microsoft Office-formátumok: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (Outlook-e-mailek), XML (2003 és 2006 WORD XML)
- Dokumentumformátumok megnyitása: ODT, ODS, ODP
- Egyszerű szöveges fájlok (lásd még : Egyszerű szöveg indexelése)
- RTF
- XML
- FÜTYÜLÉS
Képességparaméterek
A paraméterek megkülönböztetik a kis- és nagybetűket.
Bevitelek | Megengedett értékek | Leírás |
---|---|---|
parsingMode |
default text json |
default A nem tiszta szövegből vagy jsonból származó dokumentumok kinyerésére van beállítva. A korrektúrafájlokat tartalmazó forrásfájlok (például PDF-, HTML-, RTF- és Microsoft Office-fájlok) esetében az alapértelmezett beállításokkal csak a szöveget bonthatja ki, a korrektúra nyelvével vagy címkéivel. Ha parsingMode nincs explicit módon definiálva, akkor a beállítás értéke default . Állítsa be, hogy a text forrásfájlok TXT formátumúak-e. Ez az elemzési mód javítja az egyszerű szöveges fájlok teljesítményét. Ha a fájlok korrektúrát tartalmaznak, ez a mód megőrzi a címkéket a végső kimenetben. Úgy van beállítva, hogy json strukturált tartalmat nyerjen ki json-fájlokból. |
dataToExtract |
contentAndMetadata allMetadata |
Úgy van beállítva, hogy contentAndMetadata az összes metaadatot és szöveges tartalmat kinyerje az egyes fájlokból. Ha dataToExtract nincs explicit módon definiálva, akkor a beállítás értéke contentAndMetadata . Úgy van beállítva, hogy allMetadata csak a tartalomtípus metaadat-tulajdonságait nyerje ki (például a csak .png fájlokra jellemző metaadatokat). |
configuration |
Lásd alább. | A dokumentum kinyerésének menetét módosító választható paraméterek szótára. A támogatott konfigurációs tulajdonságok leírását az alábbi táblázatban találja. |
Konfigurációs paraméter | Megengedett értékek | Leírás |
---|---|---|
imageAction |
none generateNormalizedImages generateNormalizedImagePerPage |
Állítsa úgy, hogy none figyelmen kívül hagyja a beágyazott képeket vagy képfájlokat az adathalmazban, vagy ha a forrásadatok nem tartalmaznak képfájlokat. Ez az alapértelmezett beállítás. Az OCR-hez és a képelemzéshez állítsa be, hogy generateNormalizedImages a képesség normalizált képeket hozzon létre a dokumentumtörés részeként. Ehhez a művelethez parsingMode be kell állítani default dataToExtract és be kell állítani.contentAndMetadata A normalizált kép olyan extra feldolgozást jelent, amely egységes képkimenetet eredményez, méretezve és elforgatva, hogy elősegítse a következetes renderelést, amikor képeket ad hozzá a vizuális keresési eredményekhez (például azonos méretű fényképeket egy gráfvezérlőben, ahogy a JFK-bemutatóban látható). Ez az információ minden képhez létrejön, amikor ezt a beállítást használja. Ha be van állítva, a generateNormalizedImagePerPage PDF-fájlokat másképp kezeli a rendszer, mivel beágyazott képek kinyerése helyett minden oldal képként jelenik meg, és ennek megfelelően normalizálódik. A nem PDF-fájltípusok ugyanúgy lesznek kezelve, mint a generateNormalizedImages beállítottak. |
normalizedImageMaxWidth |
50–10000 közötti egész szám | A létrehozott normalizált képek maximális szélessége (képpontban kifejezve). Az alapértelmezett érték 2000. |
normalizedImageMaxHeight |
50–10000 közötti egész szám | A létrehozott normalizált képek maximális magassága (képpontban). Az alapértelmezett érték 2000. |
Feljegyzés
A normalizált képek maximális szélessége és magassága alapértelmezés szerint 2000 képpont, amely az OCR-képesség és a képelemzési képesség által támogatott maximális méreteken alapul. Az OCR-képesség legfeljebb 4200 szélességet és magasságot támogat a nem angol nyelvű nyelvek esetében, angolul pedig 10000-et. Ha növeli a maximális korlátokat, a feldolgozás a készségek definíciójától és a dokumentumok nyelvétől függően nagyobb képeken is meghiúsulhat.
Készségbemenetek
Bemeneti név | Leírás |
---|---|
file_data |
Az a fájl, amelyből a tartalmat ki kell nyerni. |
A "file_data" bemenetnek a következő módon definiált objektumnak kell lennie:
{
"$type": "file",
"data": "BASE64 encoded string of the file"
}
Másik lehetőségként a következőként definiálható:
{
"$type": "file",
"url": "URL to download file",
"sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}
A fájlhivatkozási objektum háromféleképpen hozható létre:
A paraméter beállítása az
allowSkillsetToReadFileData
indexelő definícióján "true" (igaz) értékre. Ez létrehoz egy elérési utat/document/file_data
, amely egy objektum, amely a blob adatforrásából letöltött eredeti fájladatokat jelöli. Ez a paraméter csak a Blob Storage-ban lévő fájlokra vonatkozik.imageAction
Az indexelő definíciójának paraméterének beállítása nemnone
a következő értékre: . Ez egy képtömböt hoz létre, amely követi a képességhez való bemenethez szükséges konvenciót, ha egyénileg adja át (azaz/document/normalized_images/*
).Az egyéni képesség visszaad egy pontosan a fenti módon definiált JSON-objektumot. A
$type
paramétert pontosanfile
be kell állítani, és adata
paraméternek a fájltartalom alap 64 bájtos tömbadatainak kell lennie, vagy aurl
paraméternek megfelelően formázott URL-címnek kell lennie, amely hozzáférést biztosít a fájl ezen a helyen való letöltéséhez.
Képességkimenetek
Kimeneti név | Leírás |
---|---|
content |
A dokumentum szöveges tartalma. |
normalized_images |
Ha az imageAction érték nem none értékre van beállítva, az új normalized_images mező képtömböt tartalmaz. A kimeneti formátumról további információt a képek szövegének és információinak kinyerése című témakörben talál. |
Mintadefiníció
{
"@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
"parsingMode": "default",
"dataToExtract": "contentAndMetadata",
"configuration": {
"imageAction": "generateNormalizedImages",
"normalizedImageMaxWidth": 2000,
"normalizedImageMaxHeight": 2000
},
"context": "/document",
"inputs": [
{
"name": "file_data",
"source": "/document/file_data"
}
],
"outputs": [
{
"name": "content",
"targetName": "extracted_content"
},
{
"name": "normalized_images",
"targetName": "extracted_normalized_images"
}
]
}
Példabemenet
{
"values": [
{
"recordId": "1",
"data":
{
"file_data": {
"$type": "file",
"data": "aGVsbG8="
}
}
}
]
}
Példakimenet
{
"values": [
{
"recordId": "1",
"data": {
"content": "hello",
"normalized_images": []
}
}
]
}