Belge Ayıklama bilişsel becerisi
Belge Ayıklama becerisi, zenginleştirme işlem hattı içindeki bir dosyadan içerik ayıklar. Bu, diğer beceriler tarafından oluşturulabilecek dosyalarla beceri kümesi yürütmeden önce normalde gerçekleşen belge ayıklama adımından yararlanmanızı sağlar.
Not
Bu beceri Azure yapay zeka hizmetlerine bağlı değildir ve Azure yapay zeka hizmetleri temel gereksinimi yoktur. Bu beceri metin ve görüntüleri ayıklar. Metin ayıklama ücretsizdir. Görüntü ayıklama, Azure AI Search tarafından ölçülür. Ücretsiz arama hizmetinde, hızlı başlangıçları, öğreticileri ve küçük projeleri ücretsiz olarak tamamlayabilmeniz için günlük dizin oluşturucu başına 20 işlem maliyeti alınır. Temel, Standart ve üzeri için görüntü ayıklama faturalanabilir.
@odata.type
Microsoft.Skills.Util.DocumentExtractionSkill
Desteklenen belge biçimleri
DocumentExtractionSkill aşağıdaki belge biçimlerinden metin ayıklayabilir:
- CSV (bkz. CSV bloblarının dizinini oluşturma)
- EML
- EPUB
- GZ
- HTML
- JSON (bkz. JSON bloblarını dizinleme)
- KML (coğrafi gösterimler için XML)
- Microsoft Office biçimleri: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (Outlook e-postaları), XML (hem 2003 hem de 2006 WORD XML)
- Belge biçimlerini açma: ODT, ODS, ODP
- Düz metin dosyaları (ayrıca bkz. Düz metin dizini oluşturma)
- RTF
- XML
- ZIP
Beceri parametreleri
Parametreler büyük/küçük harfe duyarlıdır.
Girişler | İzin Verilen Değerler | Açıklama |
---|---|---|
parsingMode |
default text json |
default Saf metin veya json olmayan dosyalardan belge ayıklama için olarak ayarlayın. İşaretlemeyi içeren kaynak dosyalar (PDF, HTML, RTF ve Microsoft Office dosyaları gibi) için varsayılanı kullanarak yalnızca metni ayıklayın, herhangi bir işaretleme dili veya etiketi çıkarın. Açıkça tanımlanmadıysa parsingMode , olarak ayarlanır default . text Kaynak dosyaların TXT olup olmadığını olarak ayarlayın. Bu ayrıştırma modu düz metin dosyalarındaki performansı artırır. Dosyalar işaretleme içerirse, bu mod son çıktıdaki etiketleri korur. json JSON dosyalarından yapılandırılmış içeriği ayıklamak için olarak ayarlayın. |
dataToExtract |
contentAndMetadata allMetadata |
contentAndMetadata Her dosyadan tüm meta verileri ve metin içeriğini ayıklamak için olarak ayarlayın. Açıkça tanımlanmadıysa dataToExtract , olarak ayarlanır contentAndMetadata . yalnızca içerik türünün meta veri özelliklerini ayıklamak allMetadata için olarak ayarlayın (örneğin, yalnızca .png dosyalara özgü meta veriler). |
configuration |
Aşağıya bakın. | Belge ayıklama işleminin nasıl gerçekleştirildiğini ayarlayan isteğe bağlı parametrelerden oluşan bir sözlük. Desteklenen yapılandırma özelliklerinin açıklamaları için aşağıdaki tabloya bakın. |
Yapılandırma Parametresi | İzin Verilen Değerler | Açıklama |
---|---|---|
imageAction |
none generateNormalizedImages generateNormalizedImagePerPage |
none Veri kümesindeki ekli görüntüleri veya görüntü dosyalarını yoksaymak için veya kaynak veriler görüntü dosyalarını içermiyorsa olarak ayarlayın. Bu varsayılan seçenektir. OCR ve görüntü analizi içingenerateNormalizedImages , becerinin belge kırılma işleminin bir parçası olarak normalleştirilmiş görüntüler dizisi oluşturmasını sağlamak üzere ayarlayın. Bu eylem, olarak parsingMode ve olarak default dataToExtract ayarlanmasını contentAndMetadata gerektirir. Normalleştirilmiş görüntü, görsel arama sonuçlarına görüntü eklediğinizde tutarlı işlemeyi teşvik etmek için boyutlandırılmış ve döndürülmüş tekdüzen görüntü çıkışıyla sonuçlanan ek işlemeyi ifade eder (örneğin, JFK tanıtımında görüldüğü gibi grafik denetiminde aynı boyutlu fotoğraflar). Bu seçenek kullanıldığında her görüntü için bu bilgiler oluşturulur. olarak generateNormalizedImagePerPage ayarlarsanız, PDF dosyaları ekli görüntüleri ayıklamak yerine farklı şekilde işlenir, her sayfa bir görüntü olarak işlenir ve buna göre normalleştirilir. PDF olmayan dosya türleri, ayarlanmış gibi generateNormalizedImages değerlendirilir. |
normalizedImageMaxWidth |
50-10000 arasındaki herhangi bir tamsayı | Oluşturulan normalleştirilmiş görüntüler için maksimum genişlik (piksel cinsinden). Varsayılan değer 2000’dir. |
normalizedImageMaxHeight |
50-10000 arasındaki herhangi bir tamsayı | Oluşturulan normalleştirilmiş görüntüler için maksimum yükseklik (piksel cinsinden). Varsayılan değer 2000’dir. |
Not
Normalleştirilmiş görüntüler için maksimum genişlik ve yükseklik için varsayılan 2000 piksel, OCR becerisi ve görüntü analizi becerisi tarafından desteklenen maksimum boyutlara bağlıdır. OCR becerisi, İngilizce olmayan diller için maksimum genişlik ve yükseklik 4200'i, İngilizce için 10000'i destekler. Maksimum sınırları artırırsanız, beceri kümesi tanımınıza ve belgelerin diline bağlı olarak daha büyük görüntülerde işleme başarısız olabilir.
Beceri girişleri
Giriş adı | Açıklama |
---|---|
file_data |
İçeriğin ayıklanması gereken dosya. |
"file_data" girişi şu şekilde tanımlanan bir nesne olmalıdır:
{
"$type": "file",
"data": "BASE64 encoded string of the file"
}
Alternatif olarak, şu şekilde tanımlanabilir:
{
"$type": "file",
"url": "URL to download file",
"sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}
Dosya başvuru nesnesi üç yoldan biri oluşturulabilir:
Dizin oluşturucu tanımınızdaki parametreyi
allowSkillsetToReadFileData
"true" olarak ayarlama. Bu, blob veri kaynağınızdan indirilen özgün dosya verilerini temsil eden bir nesne olan bir yol/document/file_data
oluşturur. Bu parametre yalnızca Blob depolamadaki dosyalar için geçerlidir.Dizin oluşturucu tanımınızdaki parametresini
imageAction
dışındanone
bir değere ayarlama. Bu, tek tek geçirilirse (yani/document/normalized_images/*
), bu beceriye giriş için gerekli kuralı izleyen bir görüntü dizisi oluşturur.Özel beceriye sahip olmak, yukarıda olduğu gibi TAM olarak tanımlanmış bir json nesnesi döndürür.
$type
parametresi tam olarakfile
ayarlanmalıdır vedata
parametre, dosya içeriğinin temel 64 kodlanmış bayt dizisi verileri olmalıdır veyaurl
parametre, dosyayı bu konumda indirmek için erişimi olan doğru biçimlendirilmiş bir URL olmalıdır.
Beceri çıkışları
Çıkış adı | Açıklama |
---|---|
content |
Belgenin metin içeriği. |
normalized_images |
imageAction değeri dışında none bir değere ayarlandığında, yeni normalized_images alanı bir görüntü dizisi içerir. Çıkış biçimi hakkında daha fazla ayrıntı için bkz . Resimlerden metin ve bilgi ayıklama. |
Örnek tanım
{
"@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
"parsingMode": "default",
"dataToExtract": "contentAndMetadata",
"configuration": {
"imageAction": "generateNormalizedImages",
"normalizedImageMaxWidth": 2000,
"normalizedImageMaxHeight": 2000
},
"context": "/document",
"inputs": [
{
"name": "file_data",
"source": "/document/file_data"
}
],
"outputs": [
{
"name": "content",
"targetName": "extracted_content"
},
{
"name": "normalized_images",
"targetName": "extracted_normalized_images"
}
]
}
Örnek girdi
{
"values": [
{
"recordId": "1",
"data":
{
"file_data": {
"$type": "file",
"data": "aGVsbG8="
}
}
}
]
}
Örnek çıktı
{
"values": [
{
"recordId": "1",
"data": {
"content": "hello",
"normalized_images": []
}
}
]
}