مهارة معرفية لاستخراج المستندات

تستخرج مهارة استخراج المستند المحتوى من ملف داخل مسار الإثراء. يسمح لك هذا بالاستفادة من خطوة استخراج المستند التي تحدث عادة قبل تنفيذ مجموعة المهارات مع الملفات التي قد يتم إنشاؤها بواسطة مهارات أخرى.

إشعار

هذه المهارة غير مرتبطة بخدمات Azure الذكاء الاصطناعي وليس لديها متطلبات أساسية لخدمات Azure الذكاء الاصطناعي. تستخرج هذه المهارة النص والصور. استخراج النص مجاني. يتم قياس استخراج الصور بواسطة Azure الذكاء الاصطناعي Search. في خدمة بحث مجانية، يتم استيعاب تكلفة 20 معاملة لكل مفهرس يوميا بحيث يمكنك إكمال عمليات التشغيل السريع والبرامج التعليمية والمشاريع الصغيرة دون أي رسوم. بالنسبة إلى Basic وStandard وما فوق، يكون استخراج الصور قابلا للفوترة.

@odata.type

Microsoft.Skills.Util.DocumentExtractionSkill

تنسيقات المستندات المعتمدة

يمكن ل DocumentExtractionSkill استخراج النص من تنسيقات المستندات التالية:

معلمات المهارة

المعلمات حساسة لحالة الأحرف.

الإدخالات القيم المسموح بها ‏‏الوصف
parsingMode default
text
json
تعيين إلى default لاستخراج المستند من الملفات التي ليست نصا خالصا أو json. بالنسبة للملفات المصدر التي تحتوي على علامات (مثل ملفات PDF وHTML وRTF وMicrosoft Office)، استخدم الإعداد الافتراضي لاستخراج النص فقط، مطروحا منه أي لغة أو علامات تمييز. إذا parsingMode لم يتم تعريفه بشكل صريح، فسيتم تعيينه إلى default.

قم بتعيين إلى text إذا كانت الملفات المصدر TXT. يعمل وضع التحليل هذا على تحسين الأداء على ملفات النص العادي. إذا كانت الملفات تتضمن علامات، فسيحافظ هذا الوضع على العلامات في الإخراج النهائي.

قم بتعيين إلى json لاستخراج المحتوى المنظم من ملفات json.
dataToExtract contentAndMetadata
allMetadata
قم بتعيين إلى contentAndMetadata لاستخراج كافة بيانات التعريف والمحتوى النصي من كل ملف. إذا dataToExtract لم يتم تعريفه بشكل صريح، فسيتم تعيينه إلى contentAndMetadata.

قم بتعيين إلى allMetadata لاستخراج خصائص بيانات التعريف لنوع المحتوى فقط (على سبيل المثال، بيانات التعريف الفريدة لملفات .png فقط).
configuration انظر أدناه. قاموس المعلمات الاختيارية التي تضبط كيفية تنفيذ استخراج المستند. راجع الجدول أدناه للحصول على أوصاف لخصائص التكوين المدعومة.
معلمة التكوين القيم المسموح بها ‏‏الوصف
imageAction none
generateNormalizedImages
generateNormalizedImagePerPage
قم بتعيين إلى none لتجاهل الصور المضمنة أو ملفات الصور في مجموعة البيانات، أو إذا كانت البيانات المصدر لا تتضمن ملفات الصور. هذا هو الوضع الافتراضي.

بالنسبة إلى التعرف البصري على الحروف وتحليل الصور، اضبط على generateNormalizedImages أن تنشئ المهارة صفيفا من الصور التي تمت تسويتها كجزء من تكسير المستند. يتطلب هذا الإجراء تعيين parsingMode إلى default وتعيين dataToExtract إلى contentAndMetadata. تشير الصورة التي تمت تسويتها إلى معالجة إضافية تؤدي إلى إخراج صورة موحدة، وحجمها وتدويرها لتعزيز العرض المتسق عند تضمين الصور في نتائج البحث المرئي (على سبيل المثال، الصور الفوتوغرافية بنفس الحجم في عنصر تحكم الرسم البياني كما هو معروض في العرض التوضيحي JFK). يتم إنشاء هذه المعلومات لكل صورة عند استخدام هذا الخيار.

إذا قمت بتعيين إلى generateNormalizedImagePerPage، يتم التعامل مع ملفات PDF بشكل مختلف في ذلك بدلا من استخراج الصور المضمنة، يتم عرض كل صفحة كصورة وتطبيعها وفقا لذلك. يتم التعامل مع أنواع الملفات غير PDF كما لو generateNormalizedImages تم تعيينها.
normalizedImageMaxWidth أي عدد صحيح بين 50-10000 الحد الأقصى للعرض (بالبكسل) للصور التي تمت تسويتها التي تم إنشاؤها. القيمة الافتراضية هي 2000.
normalizedImageMaxHeight أي عدد صحيح بين 50-10000 الحد الأقصى للارتفاع (بالبكسل) للصور التي تمت تسويتها التي تم إنشاؤها. القيمة الافتراضية هي 2000.

إشعار

يعتمد الافتراضي 2000 بكسل للصور التي تمت تسويتها على الحد الأقصى للعرض والارتفاع على الحد الأقصى للأحجام التي تدعمها مهارة التعرف البصري على الحروف ومهارة تحليل الصور. تدعم مهارة التعرف البصري على الحروف (OCR) أقصى عرض وارتفاع يبلغ 4200 للغات غير الإنجليزية، و10000 للغة الإنجليزية. إذا قمت بزيادة الحد الأقصى، فقد تفشل المعالجة على الصور الأكبر اعتمادا على تعريف مجموعة المهارات ولغة المستندات.

إدخالات المهارات

اسم الإدخال ‏‏الوصف
file_data الملف الذي يجب استخراج المحتوى منه.

يجب أن يكون إدخال "file_data" كائنا معرفا على النحو التالي:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

بدلا من ذلك، يمكن تعريفه على أنه:

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

يمكن إنشاء كائن مرجع الملف بإحدى الطرق الثلاث:

  • تعيين المعلمة على allowSkillsetToReadFileData تعريف المفهرس إلى "صحيح". يؤدي هذا إلى إنشاء مسار /document/file_data يمثل بيانات الملف الأصلية التي تم تنزيلها من مصدر بيانات الكائن الثنائي كبير الحجم. تنطبق هذه المعلمة فقط على الملفات في تخزين Blob.

  • تعيين المعلمة على imageAction تعريف المفهرس إلى قيمة أخرى غير none. يؤدي هذا إلى إنشاء صفيف من الصور التي تتبع الاصطلاح المطلوب لإدخال هذه المهارة إذا تم تمريرها بشكل فردي (أي ، /document/normalized_images/*).

  • وجود مهارة مخصصة ترجع كائن json محدد بالضبط كما هو موضح أعلاه. $type يجب تعيين المعلمة إلى تماما file ويجب data أن تكون المعلمة هي بيانات صفيف البايت المشفرة الأساسية 64 لمحتوى الملف، أو url يجب أن تكون المعلمة عنوان URL منسق بشكل صحيح مع إمكانية الوصول لتنزيل الملف في هذا الموقع.

إخراجات المهارات

اسم الإخراج ‏‏الوصف
content المحتوى النصي للمستند.
normalized_images imageAction عند تعيين إلى قيمة أخرى غير none، يحتوي حقل normalized_images الجديد على صفيف من الصور. راجع استخراج النص والمعلومات من الصور لمزيد من التفاصيل حول تنسيق الإخراج.

تعريف العينة

 {
    "@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
    "parsingMode": "default",
    "dataToExtract": "contentAndMetadata",
    "configuration": {
        "imageAction": "generateNormalizedImages",
        "normalizedImageMaxWidth": 2000,
        "normalizedImageMaxHeight": 2000
    },
    "context": "/document",
    "inputs": [
      {
        "name": "file_data",
        "source": "/document/file_data"
      }
    ],
    "outputs": [
      {
        "name": "content",
        "targetName": "extracted_content"
      },
      {
        "name": "normalized_images",
        "targetName": "extracted_normalized_images"
      }
    ]
  }

عينة الإدخال

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "file_data": {
          "$type": "file",
          "data": "aGVsbG8="
        }
      }
    }
  ]
}

عينة الإخراج

{
  "values": [
    {
      "recordId": "1",
      "data": {
        "content": "hello",
        "normalized_images": []
      }
    }
  ]
}

(راجع أيضًا )