Aracılığıyla paylaş


Belge Ayıklama bilişsel becerisi

Belge Ayıklama becerisi, zenginleştirme işlem hattındaki bir dosyadan içerik ayıklar. Varsayılan olarak, içerik ayıklama veya alma, zenginleştirme işlem hattının bir parçası olarak dahili olarak bulunur. Ancak, Belge Ayıklama becerisini kullanarak parametrelerin nasıl ayarlandığını ve ayıklanan içeriğin zenginleştirme ağacında nasıl adlandırıldığından denetleyebilirsiniz.

Vektör ve çok modüllü arama için, Metin Bölme becerisiyle birleştirilen Belge Ayıklama, diğer veri öbekleme yaklaşımlarından daha uygun fiyatlıdır. Aşağıdaki öğreticilerde farklı senaryolar için beceri kullanımı gösterilmektedir:

Note

Bu beceri, Döküm Araçları'na bağlı değildir ve Döküm Araçları anahtar gereksinimi yoktur.

Bu beceri metin ve görüntüleri ayıklar. Metin ayıklama ücretsizdir. Görüntü ayıklama, Azure AI Search tarafından faturalandırılabilir. Ücretsiz arama hizmetinde, hızlı başlangıçları, öğreticileri ve küçük projeleri ücretsiz olarak tamamlayabilmeniz için günlük dizin oluşturucu başına 20 işlem maliyeti alınır. Temel ve daha yüksek katmanlar için görüntü ayıklama faturalandırılabilir.

@odata.type

Microsoft.Skills.Util.DocumentExtractionSkill

Desteklenen belge biçimleri

DocumentExtractionSkill aşağıdaki belge biçimlerinden metin ayıklayabilir:

  • CSV (bkz. CSV bloblarının dizinini oluşturma)
  • EML
  • EPUB
  • GZ
  • HTML
  • JSON (bkz. JSON bloblarını dizinleme)
  • KML (coğrafi gösterimler için XML)
  • Markdown
  • Microsoft Office biçimleri: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (Outlook e-postaları), XML (hem 2003 hem de 2006 WORD XML)
  • Belge biçimlerini açma: ODT, ODS, ODP
  • PDF
  • Düz metin dosyaları (ayrıca bkz. Düz metin dizini oluşturma)
  • RTF
  • XML
  • ZIP

Beceri parametreleri

Parametreler büyük/küçük harfe duyarlıdır.

Inputs İzin Verilen Değerler Description
parsingMode default
text
json
default Saf metin veya json olmayan dosyalardan belge ayıklama için olarak ayarlayın. İşaretlemeyi içeren kaynak dosyalar (PDF, HTML, RTF ve Microsoft Office dosyaları gibi) için varsayılanı kullanarak yalnızca metni ayıklayın, herhangi bir işaretleme dili veya etiketi çıkarın. Açıkça tanımlanmadıysa parsingMode , olarak ayarlanır default.

text Kaynak dosyaların TXT olup olmadığını olarak ayarlayın. Bu ayrıştırma modu düz metin dosyalarındaki performansı artırır. Dosyalar işaretleme içerirse, bu mod son çıktıdaki etiketleri korur.

json JSON dosyalarından yapılandırılmış içeriği ayıklamak için olarak ayarlayın.
dataToExtract contentAndMetadata
allMetadata
contentAndMetadata Her dosyadan tüm meta verileri ve metin içeriğini ayıklamak için olarak ayarlayın. Açıkça tanımlanmadıysa dataToExtract , olarak ayarlanır contentAndMetadata.

yalnızca allMetadata ayıklamak için olarak ayarlayın (örneğin, yalnızca .png dosyalara özgü meta veriler).
configuration Aşağıya bakın. Belge ayıklama işleminin nasıl gerçekleştirildiğini ayarlayan isteğe bağlı parametrelerden oluşan bir sözlük. Desteklenen yapılandırma özelliklerinin açıklamaları için aşağıdaki tabloya bakın.
Yapılandırma Parametresi İzin Verilen Değerler Description
imageAction none
generateNormalizedImages
generateNormalizedImagePerPage
none Veri kümesindeki ekli görüntüleri veya görüntü dosyalarını yoksaymak için veya kaynak veriler görüntü dosyalarını içermiyorsa olarak ayarlayın. Varsayılan değer budur.

OCR ve görüntü analizi içingenerateNormalizedImages, becerinin belge kırılma işleminin bir parçası olarak normalleştirilmiş görüntüler dizisi oluşturmasını sağlamak üzere ayarlayın. Bu eylem, olarak parsingMode ve olarak defaultdataToExtract ayarlanmasını contentAndMetadatagerektirir. Normalleştirilmiş görüntü, görsel arama sonuçlarına görüntü eklediğinizde tutarlı işlemeyi teşvik etmek için boyutlandırılmış ve döndürülmüş tekdüzen görüntü çıkışıyla sonuçlanan ek işlemeyi ifade eder (örneğin, JFK tanıtımında görüldüğü gibi grafik denetiminde aynı boyutlu fotoğraflar). Bu seçenek kullanıldığında her görüntü için bu bilgiler oluşturulur.

olarak generateNormalizedImagePerPageayarlarsanız, PDF dosyaları ekli görüntüleri ayıklamak yerine farklı şekilde işlenir, her sayfa bir görüntü olarak işlenir ve buna göre normalleştirilir. PDF olmayan dosya türleri, ayarlanmış gibi generateNormalizedImages değerlendirilir.
normalizedImageMaxWidth 50-10000 arasındaki herhangi bir tamsayı Oluşturulan normalleştirilmiş görüntüler için maksimum genişlik (piksel cinsinden). Varsayılan değer 2000’dir.
normalizedImageMaxHeight 50-10000 arasındaki herhangi bir tamsayı Oluşturulan normalleştirilmiş görüntüler için maksimum yükseklik (piksel cinsinden). Varsayılan değer 2000’dir.

Note

Normalleştirilmiş görüntüler için maksimum genişlik ve yükseklik için varsayılan 2000 piksel, OCR becerisi ve görüntü analizi becerisi tarafından desteklenen maksimum boyutlara bağlıdır. OCR becerisi, İngilizce olmayan diller için maksimum genişlik ve yükseklik 4200'i, İngilizce için 10000'i destekler. Maksimum sınırları artırırsanız, beceri kümesi tanımınıza ve belgelerin diline bağlı olarak daha büyük görüntülerde işleme başarısız olabilir.

Beceri girişleri

Giriş adı Description
file_data İçeriğin ayıklanması gereken dosya.

"file_data" girişi şu şekilde tanımlanan bir nesne olmalıdır:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

Alternatif olarak, şu şekilde tanımlanabilir:

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

Dosya başvuru nesnesi üç yoldan biri oluşturulabilir:

  • Dizin oluşturucu tanımınızdaki parametreyi allowSkillsetToReadFileData "true" olarak ayarlama. Bu, blob veri kaynağınızdan indirilen özgün dosya verilerini temsil eden bir nesne olan bir yol /document/file_data oluşturur. Bu parametre yalnızca Blob depolamadaki dosyalar için geçerlidir.

  • Dizin oluşturucu tanımınızdaki parametresini imageAction dışında nonebir değere ayarlama. Bu, tek tek geçirilirse (yani /document/normalized_images/*), bu beceriye giriş için gerekli kuralı izleyen bir görüntü dizisi oluşturur.

  • Özel beceriye sahip olmak, yukarıda olduğu gibi TAM olarak tanımlanmış bir json nesnesi döndürür. $type parametresi tam olarak file ayarlanmalıdır ve data parametre, dosya içeriğinin temel 64 kodlanmış bayt dizisi verileri olmalıdır veya url parametre, dosyayı bu konumda indirmek için erişimi olan doğru biçimlendirilmiş bir URL olmalıdır.

Beceri çıkışları

Çıkış adı Description
content Belgenin metin içeriği.
normalized_images imageAction değeri dışında nonebir değere ayarlandığında, yeni normalized_images alanı bir görüntü dizisi içerir. Çıkış biçimi hakkında daha fazla ayrıntı için bkz. Resimlerden metin ve bilgi ayıklama .

Örnek tanım

 {
    "@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
    "parsingMode": "default",
    "dataToExtract": "contentAndMetadata",
    "configuration": {
        "imageAction": "generateNormalizedImages",
        "normalizedImageMaxWidth": 2000,
        "normalizedImageMaxHeight": 2000
    },
    "context": "/document",
    "inputs": [
      {
        "name": "file_data",
        "source": "/document/file_data"
      }
    ],
    "outputs": [
      {
        "name": "content",
        "targetName": "extracted_content"
      },
      {
        "name": "normalized_images",
        "targetName": "extracted_normalized_images"
      }
    ]
  }

Örnek girdi

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "file_data": {
          "$type": "file",
          "data": "aGVsbG8="
        }
      }
    }
  ]
}

Örnek çıkış verisi

{
  "values": [
    {
      "recordId": "1",
      "data": {
        "content": "hello",
        "normalized_images": []
      }
    }
  ]
}

Ayrıca bakınız