Keterampilan kognitif Ekstraksi Dokumen

Artikel
01/09/2024

Keterampilan Ekstraksi Dokumen mengekstrak konten dari file dalam alur pengayaan. Ini memungkinkan Anda untuk memanfaatkan langkah ekstraksi dokumen yang biasanya terjadi sebelum eksekusi skillset dengan file yang mungkin dihasilkan oleh keterampilan lain.

Catatan

Keterampilan ini tidak terikat ke layanan Azure AI dan tidak memiliki persyaratan kunci layanan Azure AI. Keterampilan ini mengekstrak teks dan gambar. Ekstraksi teks tidak dikenakan biaya. Ekstraksi gambar diukur oleh Azure AI Search. Pada layanan pencarian gratis, biaya 20 transaksi per pengindeks per hari diserap sehingga Anda dapat menyelesaikan mulai cepat, tutorial, dan proyek kecil tanpa biaya. Untuk Dasar, Standar, dan di atas, ekstraksi gambar dikenakan biaya.

@odata.type

Microsoft.Skills.Util.DocumentExtractionSkill

Format dokumen yang didukung

DocumentExtractionSkill dapat mengekstrak teks dari format dokumen berikut:

CSV (lihat Mengindeks blob CSV)
EML
EPUB
GZ
HTML
JSON (lihat Mengindeks blob JSON)
KML (XML untuk representasi geografis)
Format Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (email Outlook), XML (XML WORD 2003 dan 2006)
Format Dokumen Terbuka: ODT, ODS, ODP
PDF
File teks biasa (lihat juga Mengindeks teks biasa)
RTF
XML
ZIP

Parameter keterampilan

Parameternya peka huruf besar/kecil.

Input Nilai yang diizinkan Deskripsi

Input	Nilai yang diizinkan	Deskripsi
`parsingMode`	`default` `text` `json`	Atur ke `default` untuk ekstraksi dokumen dari file yang bukan teks murni atau json. Untuk file sumber yang berisi mark up (seperti file PDF, HTML, RTF, dan Microsoft Office), gunakan default untuk mengekstrak hanya teks, dikurangi bahasa atau tag markup apa pun. Jika `parsingMode` tidak didefinisikan secara eksplisit, itu akan diatur ke `default`. Atur ke `text` jika file sumber adalah TXT. Mode penguraian ini meningkatkan performa pada file teks biasa. Jika file menyertakan markup, mode ini akan mempertahankan tag dalam output akhir. Atur ke `json` untuk mengekstrak konten terstruktur dari file json.
`dataToExtract`	`contentAndMetadata` `allMetadata`	Atur ke `contentAndMetadata` untuk mengekstrak semua metadata dan konten tekstual dari setiap file. Jika `dataToExtract` tidak didefinisikan secara eksplisit, itu akan diatur ke `contentAndMetadata`. Atur ke `allMetadata` untuk mengekstrak hanya properti metadata untuk jenis konten (misalnya, metadata unik untuk file .png).
`configuration`	Lihat bawah.	Kamus parameter opsional yang menyesuaikan bagaimana ekstraksi dokumen dilakukan. Lihat tabel di bawah ini untuk deskripsi properti konfigurasi yang didukung.

parsingMode

default
text
json

Atur ke default untuk ekstraksi dokumen dari file yang bukan teks murni atau json. Untuk file sumber yang berisi mark up (seperti file PDF, HTML, RTF, dan Microsoft Office), gunakan default untuk mengekstrak hanya teks, dikurangi bahasa atau tag markup apa pun. Jika parsingMode tidak didefinisikan secara eksplisit, itu akan diatur ke default.

Atur ke text jika file sumber adalah TXT. Mode penguraian ini meningkatkan performa pada file teks biasa. Jika file menyertakan markup, mode ini akan mempertahankan tag dalam output akhir.

Atur ke json untuk mengekstrak konten terstruktur dari file json.

dataToExtract

contentAndMetadata
allMetadata

Atur ke contentAndMetadata untuk mengekstrak semua metadata dan konten tekstual dari setiap file. Jika dataToExtract tidak didefinisikan secara eksplisit, itu akan diatur ke contentAndMetadata.

Atur ke allMetadata untuk mengekstrak hanya properti metadata untuk jenis konten (misalnya, metadata unik untuk file .png).

configuration Lihat bawah. Kamus parameter opsional yang menyesuaikan bagaimana ekstraksi dokumen dilakukan. Lihat tabel di bawah ini untuk deskripsi properti konfigurasi yang didukung.

Parameter Konfigurasi Nilai yang diizinkan Deskripsi

Parameter Konfigurasi	Nilai yang diizinkan	Deskripsi
`imageAction`	`none` `generateNormalizedImages` `generateNormalizedImagePerPage`	Atur ke `none` untuk mengabaikan gambar atau file gambar yang disematkan dalam himpunan data, atau jika data sumber tidak menyertakan file gambar. Ini adalah default. Untuk OCR dan analisis gambar, atur ke agar `generateNormalizedImages` keterampilan membuat array gambar yang dinormalisasi sebagai bagian dari pemecahan dokumen. Tindakan ini mengharuskan `parsingMode` yang diatur ke `default` dan `dataToExtract` diatur ke `contentAndMetadata`. Gambar yang dinormalisasi mengacu pada pemrosesan tambahan yang menghasilkan output gambar yang seragam, berukuran dan diputar untuk mempromosikan penyajian yang konsisten saat Anda menyertakan gambar dalam hasil pencarian visual (misalnya, foto ukuran yang sama dalam kontrol grafik seperti yang terlihat dalam demo JFK). Informasi ini dihasilkan untuk setiap gambar saat Anda menggunakan opsi ini. Jika Anda mengatur ke `generateNormalizedImagePerPage`, file PDF diperlakukan secara berbeda dalam hal itu alih-alih mengekstrak gambar yang disematkan, setiap halaman dirender sebagai gambar dan dinormalisasi sesuai. Jenis file non-PDF diperlakukan sama seperti jika `generateNormalizedImages` telah diatur.
`normalizedImageMaxWidth`	Bilangan bulat antara 50-10000	Lebar maksimum (dalam piksel) untuk gambar yang dinormalkan yang dihasilkan. Defaultnya adalah 2000.
`normalizedImageMaxHeight`	Bilangan bulat antara 50-10000	Tinggi maksimum (dalam piksel) untuk gambar yang dinormalisasi yang dihasilkan. Defaultnya adalah 2000.

imageAction

none
generateNormalizedImages
generateNormalizedImagePerPage

Atur ke none untuk mengabaikan gambar atau file gambar yang disematkan dalam himpunan data, atau jika data sumber tidak menyertakan file gambar. Ini adalah default.

Untuk OCR dan analisis gambar, atur ke agar generateNormalizedImages keterampilan membuat array gambar yang dinormalisasi sebagai bagian dari pemecahan dokumen. Tindakan ini mengharuskan parsingMode yang diatur ke default dan dataToExtract diatur ke contentAndMetadata. Gambar yang dinormalisasi mengacu pada pemrosesan tambahan yang menghasilkan output gambar yang seragam, berukuran dan diputar untuk mempromosikan penyajian yang konsisten saat Anda menyertakan gambar dalam hasil pencarian visual (misalnya, foto ukuran yang sama dalam kontrol grafik seperti yang terlihat dalam demo JFK). Informasi ini dihasilkan untuk setiap gambar saat Anda menggunakan opsi ini.

Jika Anda mengatur ke generateNormalizedImagePerPage, file PDF diperlakukan secara berbeda dalam hal itu alih-alih mengekstrak gambar yang disematkan, setiap halaman dirender sebagai gambar dan dinormalisasi sesuai. Jenis file non-PDF diperlakukan sama seperti jika generateNormalizedImages telah diatur.

normalizedImageMaxWidth Bilangan bulat antara 50-10000 Lebar maksimum (dalam piksel) untuk gambar yang dinormalkan yang dihasilkan. Defaultnya adalah 2000.

normalizedImageMaxHeight Bilangan bulat antara 50-10000 Tinggi maksimum (dalam piksel) untuk gambar yang dinormalisasi yang dihasilkan. Defaultnya adalah 2000.

Catatan

Default 2000 piksel untuk lebar dan tinggi maksimum gambar yang dinormalisasi didasarkan pada ukuran maksimum yang didukung oleh keterampilan OCR dan keterampilan analisis gambar. Keterampilan OCR mendukung lebar dan tinggi maksimum 4200 untuk bahasa non-Inggris, dan 10000 untuk bahasa Inggris. Jika Anda meningkatkan batas maksimum, pemrosesan bisa gagal pada gambar yang lebih besar tergantung pada definisi set keterampilan Anda dan bahasa dokumen.

Input keterampilan

Masukkan nama	Deskripsi
`file_data`	File yang kontennya harus diekstrak.

Input "file_data" harus berupa objek yang didefinisikan sebagai:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

Atau, dapat didefinisikan sebagai:

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

Objek referensi file dapat dihasilkan salah satu dari tiga cara:

Mengatur parameter allowSkillsetToReadFileData pada definisi pengindeks Anda menjadi "true". Ini membuat jalur /document/file_data yang merupakan objek yang mewakili data file asli yang diunduh dari sumber data blob Anda. Parameter ini hanya berlaku untuk file di penyimpanan Blob.
Mengatur parameter imageAction pada definisi pengindeks Anda ke nilai selain none. Ini membuat array gambar yang mengikuti konvensi yang diperlukan untuk input ke keterampilan ini jika diteruskan satu per satu (yaitu, /document/normalized_images/*).
Memiliki keterampilan kustom mengembalikan objek json yang ditentukan PERSIS seperti di atas. Parameter $type harus diatur ke persis file dan parameter data harus menjadi data array byte dasar 64 yang dikodekan dari konten file, atau parameter url harus berupa URL yang diformat dengan benar dengan akses untuk mengunduh file di lokasi tersebut.

Output keterampilan

Nama output	Deskripsi
`content`	Konten tekstual dokumen.
`normalized_images`	`imageAction` Saat diatur ke nilai selain `none`, bidang normalized_images baru berisi array gambar. Lihat Mengekstrak teks dan informasi dari gambar untuk detail selengkapnya tentang format output.

Definisi sampel

 {
    "@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
    "parsingMode": "default",
    "dataToExtract": "contentAndMetadata",
    "configuration": {
        "imageAction": "generateNormalizedImages",
        "normalizedImageMaxWidth": 2000,
        "normalizedImageMaxHeight": 2000
    },
    "context": "/document",
    "inputs": [
      {
        "name": "file_data",
        "source": "/document/file_data"
      }
    ],
    "outputs": [
      {
        "name": "content",
        "targetName": "extracted_content"
      },
      {
        "name": "normalized_images",
        "targetName": "extracted_normalized_images"
      }
    ]
  }

Input sampel

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "file_data": {
          "$type": "file",
          "data": "aGVsbG8="
        }
      }
    }
  ]
}

Sampel output

{
  "values": [
    {
      "recordId": "1",
      "data": {
        "content": "hello",
        "normalized_images": []
      }
    }
  ]
}

Bagikan melalui