Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Belge Ayıklama becerisi, zenginleştirme işlem hattındaki bir dosyadan içerik ayıklar. Varsayılan olarak, içerik ayıklama veya alma, zenginleştirme işlem hattının bir parçası olarak dahili olarak bulunur. Ancak, Belge Ayıklama becerisini kullanarak parametrelerin nasıl ayarlandığını ve ayıklanan içeriğin zenginleştirme ağacında nasıl adlandırıldığından denetleyebilirsiniz.
Vektör ve çok modüllü arama için, Metin Bölme becerisiyle birleştirilen Belge Ayıklama, diğer veri öbekleme yaklaşımlarından daha uygun fiyatlıdır. Aşağıdaki öğreticilerde farklı senaryolar için beceri kullanımı gösterilmektedir:
Note
Bu beceri, Döküm Araçları'na bağlı değildir ve Döküm Araçları anahtar gereksinimi yoktur.
Bu beceri metin ve görüntüleri ayıklar. Metin ayıklama ücretsizdir. Görüntü ayıklama, Azure AI Search tarafından faturalandırılabilir. Ücretsiz arama hizmetinde, hızlı başlangıçları, öğreticileri ve küçük projeleri ücretsiz olarak tamamlayabilmeniz için günlük dizin oluşturucu başına 20 işlem maliyeti alınır. Temel ve daha yüksek katmanlar için görüntü ayıklama faturalandırılabilir.
@odata.type
Microsoft.Skills.Util.DocumentExtractionSkill
Desteklenen belge biçimleri
DocumentExtractionSkill aşağıdaki belge biçimlerinden metin ayıklayabilir:
- CSV (bkz. CSV bloblarının dizinini oluşturma)
- EML
- EPUB
- GZ
- HTML
- JSON (bkz. JSON bloblarını dizinleme)
- KML (coğrafi gösterimler için XML)
- Markdown
- Microsoft Office biçimleri: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (Outlook e-postaları), XML (hem 2003 hem de 2006 WORD XML)
- Belge biçimlerini açma: ODT, ODS, ODP
- Düz metin dosyaları (ayrıca bkz. Düz metin dizini oluşturma)
- RTF
- XML
- ZIP
Beceri parametreleri
Parametreler büyük/küçük harfe duyarlıdır.
| Yapılandırma Parametresi | İzin Verilen Değerler | Description |
|---|---|---|
imageAction |
none
generateNormalizedImages
generateNormalizedImagePerPage
|
none Veri kümesindeki ekli görüntüleri veya görüntü dosyalarını yoksaymak için veya kaynak veriler görüntü dosyalarını içermiyorsa olarak ayarlayın. Varsayılan değer budur.
OCR ve görüntü analizi içingenerateNormalizedImages, becerinin belge kırılma işleminin bir parçası olarak normalleştirilmiş görüntüler dizisi oluşturmasını sağlamak üzere ayarlayın. Bu eylem, olarak parsingMode ve olarak defaultdataToExtract ayarlanmasını contentAndMetadatagerektirir. Normalleştirilmiş görüntü, görsel arama sonuçlarına görüntü eklediğinizde tutarlı işlemeyi teşvik etmek için boyutlandırılmış ve döndürülmüş tekdüzen görüntü çıkışıyla sonuçlanan ek işlemeyi ifade eder (örneğin, JFK tanıtımında görüldüğü gibi grafik denetiminde aynı boyutlu fotoğraflar). Bu seçenek kullanıldığında her görüntü için bu bilgiler oluşturulur. olarak generateNormalizedImagePerPageayarlarsanız, PDF dosyaları ekli görüntüleri ayıklamak yerine farklı şekilde işlenir, her sayfa bir görüntü olarak işlenir ve buna göre normalleştirilir. PDF olmayan dosya türleri, ayarlanmış gibi generateNormalizedImages değerlendirilir. |
normalizedImageMaxWidth |
50-10000 arasındaki herhangi bir tamsayı | Oluşturulan normalleştirilmiş görüntüler için maksimum genişlik (piksel cinsinden). Varsayılan değer 2000’dir. |
normalizedImageMaxHeight |
50-10000 arasındaki herhangi bir tamsayı | Oluşturulan normalleştirilmiş görüntüler için maksimum yükseklik (piksel cinsinden). Varsayılan değer 2000’dir. |
Note
Normalleştirilmiş görüntüler için maksimum genişlik ve yükseklik için varsayılan 2000 piksel, OCR becerisi ve görüntü analizi becerisi tarafından desteklenen maksimum boyutlara bağlıdır. OCR becerisi, İngilizce olmayan diller için maksimum genişlik ve yükseklik 4200'i, İngilizce için 10000'i destekler. Maksimum sınırları artırırsanız, beceri kümesi tanımınıza ve belgelerin diline bağlı olarak daha büyük görüntülerde işleme başarısız olabilir.
Beceri girişleri
| Giriş adı | Description |
|---|---|
file_data |
İçeriğin ayıklanması gereken dosya. |
"file_data" girişi şu şekilde tanımlanan bir nesne olmalıdır:
{
"$type": "file",
"data": "BASE64 encoded string of the file"
}
Alternatif olarak, şu şekilde tanımlanabilir:
{
"$type": "file",
"url": "URL to download file",
"sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}
Dosya başvuru nesnesi üç yoldan biri oluşturulabilir:
Dizin oluşturucu tanımınızdaki parametreyi
allowSkillsetToReadFileData"true" olarak ayarlama. Bu, blob veri kaynağınızdan indirilen özgün dosya verilerini temsil eden bir nesne olan bir yol/document/file_dataoluşturur. Bu parametre yalnızca Blob depolamadaki dosyalar için geçerlidir.Dizin oluşturucu tanımınızdaki parametresini
imageActiondışındanonebir değere ayarlama. Bu, tek tek geçirilirse (yani/document/normalized_images/*), bu beceriye giriş için gerekli kuralı izleyen bir görüntü dizisi oluşturur.Özel beceriye sahip olmak, yukarıda olduğu gibi TAM olarak tanımlanmış bir json nesnesi döndürür.
$typeparametresi tam olarakfileayarlanmalıdır vedataparametre, dosya içeriğinin temel 64 kodlanmış bayt dizisi verileri olmalıdır veyaurlparametre, dosyayı bu konumda indirmek için erişimi olan doğru biçimlendirilmiş bir URL olmalıdır.
Beceri çıkışları
| Çıkış adı | Description |
|---|---|
content |
Belgenin metin içeriği. |
normalized_images |
imageAction değeri dışında nonebir değere ayarlandığında, yeni normalized_images alanı bir görüntü dizisi içerir. Çıkış biçimi hakkında daha fazla ayrıntı için bkz. Resimlerden metin ve bilgi ayıklama . |
Örnek tanım
{
"@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
"parsingMode": "default",
"dataToExtract": "contentAndMetadata",
"configuration": {
"imageAction": "generateNormalizedImages",
"normalizedImageMaxWidth": 2000,
"normalizedImageMaxHeight": 2000
},
"context": "/document",
"inputs": [
{
"name": "file_data",
"source": "/document/file_data"
}
],
"outputs": [
{
"name": "content",
"targetName": "extracted_content"
},
{
"name": "normalized_images",
"targetName": "extracted_normalized_images"
}
]
}
Örnek girdi
{
"values": [
{
"recordId": "1",
"data":
{
"file_data": {
"$type": "file",
"data": "aGVsbG8="
}
}
}
]
}
Örnek çıkış verisi
{
"values": [
{
"recordId": "1",
"data": {
"content": "hello",
"normalized_images": []
}
}
]
}