مهارة معرفية لاستخراج المستندات
تستخرج مهارة استخراج المستند المحتوى من ملف داخل مسار الإثراء. يسمح لك هذا بالاستفادة من خطوة استخراج المستند التي تحدث عادة قبل تنفيذ مجموعة المهارات مع الملفات التي قد يتم إنشاؤها بواسطة مهارات أخرى.
إشعار
هذه المهارة غير مرتبطة بخدمات Azure الذكاء الاصطناعي وليس لديها متطلبات أساسية لخدمات Azure الذكاء الاصطناعي. تستخرج هذه المهارة النص والصور. استخراج النص مجاني. يتم قياس استخراج الصور بواسطة Azure الذكاء الاصطناعي Search. في خدمة بحث مجانية، يتم استيعاب تكلفة 20 معاملة لكل مفهرس يوميا بحيث يمكنك إكمال عمليات التشغيل السريع والبرامج التعليمية والمشاريع الصغيرة دون أي رسوم. بالنسبة إلى Basic وStandard وما فوق، يكون استخراج الصور قابلا للفوترة.
@odata.type
Microsoft.Skills.Util.DocumentExtractionSkill
تنسيقات المستندات المعتمدة
يمكن ل DocumentExtractionSkill استخراج النص من تنسيقات المستندات التالية:
- CSV (راجع فهرسة الكائنات الثنائية كبيرة الحجم ل CSV)
- يمل
- EPUB
- Gz
- HTML
- JSON (راجع فهرسة الكائنات الثنائية كبيرة الحجم ل JSON)
- KML (XML للتمثيلات الجغرافية)
- تنسيقات Microsoft Office: DOCX/DOC/DOCM، XLSX/XLS/XLSM، PPTX/PPT/PPTM، MSG (رسائل البريد الإلكتروني في Outlook)، XML (كل من 2003 و2006 WORD XML)
- فتح تنسيقات المستندات: ODT، ODS، ODP
- ملفات النص العادي (راجع أيضا فهرسة النص العادي)
- RTF
- XML
- ZIP
معلمات المهارة
المعلمات حساسة لحالة الأحرف.
الإدخالات | القيم المسموح بها | الوصف |
---|---|---|
parsingMode |
default text json |
تعيين إلى default لاستخراج المستند من الملفات التي ليست نصا خالصا أو json. بالنسبة للملفات المصدر التي تحتوي على علامات (مثل ملفات PDF وHTML وRTF وMicrosoft Office)، استخدم الإعداد الافتراضي لاستخراج النص فقط، مطروحا منه أي لغة أو علامات تمييز. إذا parsingMode لم يتم تعريفه بشكل صريح، فسيتم تعيينه إلى default . قم بتعيين إلى text إذا كانت الملفات المصدر TXT. يعمل وضع التحليل هذا على تحسين الأداء على ملفات النص العادي. إذا كانت الملفات تتضمن علامات، فسيحافظ هذا الوضع على العلامات في الإخراج النهائي. قم بتعيين إلى json لاستخراج المحتوى المنظم من ملفات json. |
dataToExtract |
contentAndMetadata allMetadata |
قم بتعيين إلى contentAndMetadata لاستخراج كافة بيانات التعريف والمحتوى النصي من كل ملف. إذا dataToExtract لم يتم تعريفه بشكل صريح، فسيتم تعيينه إلى contentAndMetadata . قم بتعيين إلى allMetadata لاستخراج خصائص بيانات التعريف لنوع المحتوى فقط (على سبيل المثال، بيانات التعريف الفريدة لملفات .png فقط). |
configuration |
انظر أدناه. | قاموس المعلمات الاختيارية التي تضبط كيفية تنفيذ استخراج المستند. راجع الجدول أدناه للحصول على أوصاف لخصائص التكوين المدعومة. |
معلمة التكوين | القيم المسموح بها | الوصف |
---|---|---|
imageAction |
none generateNormalizedImages generateNormalizedImagePerPage |
قم بتعيين إلى none لتجاهل الصور المضمنة أو ملفات الصور في مجموعة البيانات، أو إذا كانت البيانات المصدر لا تتضمن ملفات الصور. هذا هو الوضع الافتراضي. بالنسبة إلى التعرف البصري على الحروف وتحليل الصور، اضبط على generateNormalizedImages أن تنشئ المهارة صفيفا من الصور التي تمت تسويتها كجزء من تكسير المستند. يتطلب هذا الإجراء تعيين parsingMode إلى default وتعيين dataToExtract إلى contentAndMetadata . تشير الصورة التي تمت تسويتها إلى معالجة إضافية تؤدي إلى إخراج صورة موحدة، وحجمها وتدويرها لتعزيز العرض المتسق عند تضمين الصور في نتائج البحث المرئي (على سبيل المثال، الصور الفوتوغرافية بنفس الحجم في عنصر تحكم الرسم البياني كما هو معروض في العرض التوضيحي JFK). يتم إنشاء هذه المعلومات لكل صورة عند استخدام هذا الخيار. إذا قمت بتعيين إلى generateNormalizedImagePerPage ، يتم التعامل مع ملفات PDF بشكل مختلف في ذلك بدلا من استخراج الصور المضمنة، يتم عرض كل صفحة كصورة وتطبيعها وفقا لذلك. يتم التعامل مع أنواع الملفات غير PDF كما لو generateNormalizedImages تم تعيينها. |
normalizedImageMaxWidth |
أي عدد صحيح بين 50-10000 | الحد الأقصى للعرض (بالبكسل) للصور التي تمت تسويتها التي تم إنشاؤها. القيمة الافتراضية هي 2000. |
normalizedImageMaxHeight |
أي عدد صحيح بين 50-10000 | الحد الأقصى للارتفاع (بالبكسل) للصور التي تمت تسويتها التي تم إنشاؤها. القيمة الافتراضية هي 2000. |
إشعار
يعتمد الافتراضي 2000 بكسل للصور التي تمت تسويتها على الحد الأقصى للعرض والارتفاع على الحد الأقصى للأحجام التي تدعمها مهارة التعرف البصري على الحروف ومهارة تحليل الصور. تدعم مهارة التعرف البصري على الحروف (OCR) أقصى عرض وارتفاع يبلغ 4200 للغات غير الإنجليزية، و10000 للغة الإنجليزية. إذا قمت بزيادة الحد الأقصى، فقد تفشل المعالجة على الصور الأكبر اعتمادا على تعريف مجموعة المهارات ولغة المستندات.
إدخالات المهارات
اسم الإدخال | الوصف |
---|---|
file_data |
الملف الذي يجب استخراج المحتوى منه. |
يجب أن يكون إدخال "file_data" كائنا معرفا على النحو التالي:
{
"$type": "file",
"data": "BASE64 encoded string of the file"
}
بدلا من ذلك، يمكن تعريفه على أنه:
{
"$type": "file",
"url": "URL to download file",
"sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}
يمكن إنشاء كائن مرجع الملف بإحدى الطرق الثلاث:
تعيين المعلمة على
allowSkillsetToReadFileData
تعريف المفهرس إلى "صحيح". يؤدي هذا إلى إنشاء مسار/document/file_data
يمثل بيانات الملف الأصلية التي تم تنزيلها من مصدر بيانات الكائن الثنائي كبير الحجم. تنطبق هذه المعلمة فقط على الملفات في تخزين Blob.تعيين المعلمة على
imageAction
تعريف المفهرس إلى قيمة أخرى غيرnone
. يؤدي هذا إلى إنشاء صفيف من الصور التي تتبع الاصطلاح المطلوب لإدخال هذه المهارة إذا تم تمريرها بشكل فردي (أي ،/document/normalized_images/*
).وجود مهارة مخصصة ترجع كائن json محدد بالضبط كما هو موضح أعلاه.
$type
يجب تعيين المعلمة إلى تماماfile
ويجبdata
أن تكون المعلمة هي بيانات صفيف البايت المشفرة الأساسية 64 لمحتوى الملف، أوurl
يجب أن تكون المعلمة عنوان URL منسق بشكل صحيح مع إمكانية الوصول لتنزيل الملف في هذا الموقع.
إخراجات المهارات
اسم الإخراج | الوصف |
---|---|
content |
المحتوى النصي للمستند. |
normalized_images |
imageAction عند تعيين إلى قيمة أخرى غير none ، يحتوي حقل normalized_images الجديد على صفيف من الصور. راجع استخراج النص والمعلومات من الصور لمزيد من التفاصيل حول تنسيق الإخراج. |
تعريف العينة
{
"@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
"parsingMode": "default",
"dataToExtract": "contentAndMetadata",
"configuration": {
"imageAction": "generateNormalizedImages",
"normalizedImageMaxWidth": 2000,
"normalizedImageMaxHeight": 2000
},
"context": "/document",
"inputs": [
{
"name": "file_data",
"source": "/document/file_data"
}
],
"outputs": [
{
"name": "content",
"targetName": "extracted_content"
},
{
"name": "normalized_images",
"targetName": "extracted_normalized_images"
}
]
}
عينة الإدخال
{
"values": [
{
"recordId": "1",
"data":
{
"file_data": {
"$type": "file",
"data": "aGVsbG8="
}
}
}
]
}
عينة الإخراج
{
"values": [
{
"recordId": "1",
"data": {
"content": "hello",
"normalized_images": []
}
}
]
}