مشاركة عبر


ما هو نموذج تخطيط تحليل معلومات المستند؟

ينطبق هذا المحتوى على:checkmarkv4.0 (GA) | الإصدارات السابقة:blue-checkmarkv3.1 (GA)blue-checkmarkv3.0 (GA)blue-checkmarkv2.1 (GA)

نموذج تخطيط ذكاء المستند هو واجهة برمجة تطبيقات متقدمة لتحليل المستندات المستندة إلى التعلم الآلي متوفرة في سحابة Document Intelligence. يمكنك من أخذ المستندات بتنسيقات مختلفة وإرجاع تمثيلات البيانات المنظمة للمستندات. فهو يجمع بين إصدار محسن من قدرات التعرف البصري على الحروف (OCR) القوية مع نماذج التعلم العميق لاستخراج النص والجداول وعلامات التحديد وبنية المستند.

تحليل تخطيط بنية المستند

تحليل تخطيط بنية المستند هو عملية تحليل مستند لاستخراج المناطق ذات الاهتمام والعلاقات بينهما. الهدف هو استخراج النص والعناصر الهيكلية من الصفحة لبناء نماذج فهم دلالي أفضل. يوجد نوعان من الأدوار في تخطيط المستند:

  • الأدوار الهندسية: النص والجداول والأشكال وعلامات التحديد هي أمثلة على الأدوار الهندسية.
  • الأدوار المنطقية: العناوين والعناوين والتذييلات هي أمثلة للأدوار المنطقية للنصوص.

يوضح الرسم التوضيحي التالي المكونات النموذجية في صورة لصفحة عينة.

رسم توضيحي لمثال تخطيط المستند.

خيارات التطوير

يدعم Document Intelligence v4.0: 2024-11-30 (GA) الأدوات والتطبيقات والمكتبات التالية:

ميزة الموارد معرف النموذج
نموذج التخطيط Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
تخطيط مسبق الإنشاء

اللغات المدعومة

راجع دعم اللغة — نماذج تحليل المستندات للحصول على قائمة كاملة باللغات المدعومة.

أنواع الملفات المعتمدة

يدعم نموذج تخطيط Document Intelligence v4.0: 2024-11-30 (GA) تنسيقات الملفات التالية:

نموذج PDF الصورة:
JPEG/JPG، PNG، BMP، ، TIFFHEIF
Microsoft Office:
Word (DOCX)، Excel (XLSX)، PowerPoint (PPTX)، HTML
تخطيط

متطلبات الإدخال

  • للحصول على أفضل النتائج، قم بتوفير صورة واحدة واضحة أو فحص عالي الجودة لكل مستند.

  • بالنسبة إلى PDF وTIFF، يمكن معالجة ما يصل إلى 2000 صفحة (مع اشتراك الطبقة المجانية، تتم معالجة أول صفحتين فقط).

  • إذا كانت ملفات PDF مؤمنة بكلمة مرور، فيجب إزالة التأمين قبل الإرسال.

  • حجم الملف لتحليل المستندات هو 500 ميغابايت للطبقة المدفوعة (S0) وMB 4 مجانا (F0).

  • يجب أن تتراوح أبعاد الصورة بين 50 بكسل × 50 بكسل و10000 بكسل × 10000 بكسل.

  • الحد الأدنى لارتفاع النص المراد استخراجه هو 12 بكسل لصورة 1024 × 768 بكسل. يتوافق هذا البعد مع نص النقطة تقريبا 8 عند 150 نقطة لكل بوصة (DPI).

  • بالنسبة لتدريب النموذج المخصص، الحد الأقصى لعدد الصفحات لبيانات التدريب هو 500 لنموذج القالب المخصص و50000 للنموذج العصبي المخصص.

    • لتدريب نموذج الاستخراج المخصص، يبلغ الحجم الإجمالي لبيانات التدريب 50 ميغابايت لنموذج القالب وGB 1 للنموذج العصبي.

    • بالنسبة لتدريب نموذج التصنيف المخصص، يكون الحجم الإجمالي لبيانات 1 التدريب GB بحد أقصى 10000 صفحة. بالنسبة إلى 2024-11-30 (GA)، يكون الحجم الإجمالي لبيانات 2 التدريب GB بحد أقصى 10000 صفحة.

لمزيد من المعلومات حول استخدام النموذج والحصص النسبية وحدود الخدمة، راجعحدود الخدمة.

بدء استخدام نموذج التخطيط

تعرف على كيفية استخراج البيانات، بما في ذلك النص والجداول ورؤوس الجداول وعلامات التحديد ومعلومات البنية من المستندات باستخدام Document Intelligence. تحتاج إلى الموارد التالية:

  • اشتراك Azure - يمكنك إنشاء اشتراك مجانا.

  • مثيل Document Intelligence في مدخل Microsoft Azure. يمكنك استخدام مستوى التسعير المجاني (F0) لتجربة الخدمة. بعد نشر المورد، حدد Go to resource للحصول على المفتاح ونقطة النهاية.

    لقطة شاشة للمفاتيح وموقع نقطة النهاية في مدخل Microsoft Azure.

بعد استرداد المفتاح ونقطة النهاية، استخدم خيارات التطوير التالية لإنشاء تطبيقات تحليل معلومات المستند ونشرها:

استخراج البيانات

يستخرج نموذج التخطيط العناصر الهيكلية من مستنداتك. فيما يلي أوصاف لهذه العناصر الهيكلية مع إرشادات حول كيفية استخراجها من إدخال المستند:

قم بتشغيل نموذج تحليل مستند التخطيط داخل Document Intelligence Studio، ثم انتقل إلى علامة تبويب النتائج والوصول إلى إخراج JSON الكامل.

لقطة شاشة لنتائج علامة تبويب إخراج JSON في Document Intelligence Studio.

الصفحات

مجموعة الصفحات هي قائمة بالصفحات داخل المستند. يتم تمثيل كل صفحة بشكل تسلسلي داخل المستند وتتضمن زاوية الاتجاه التي تشير إلى ما إذا كان يتم تدوير الصفحة والعرض والارتفاع (الأبعاد بالبكسل). يتم حساب وحدات الصفحة في إخراج النموذج كما هو موضح:

تنسيق الملف وحدة الصفحة المحسوبة إجمالي الصفحات
الصور (JPEG/JPG، PNG، BMP، HEIF) كل صورة = وحدة صفحة واحدة إجمالي الصور
PDF كل صفحة في PDF = وحدة صفحة واحدة إجمالي الصفحات في ملف PDF
TIFF كل صورة في TIFF = وحدة صفحة واحدة إجمالي الصور في TIFF
Word (DOCX) ما يصل إلى 3000 حرف = وحدة صفحة واحدة أو صور مضمنة أو مرتبطة غير مدعومة إجمالي الصفحات التي يصل عددها إلى 3000 حرف لكل منها
Excel (XLSX) كل ورقة عمل = وحدة صفحة واحدة أو صور مضمنة أو مرتبطة غير معتمدة إجمالي أوراق العمل
PowerPoint (PPTX) كل شريحة = وحدة صفحة واحدة أو صور مضمنة أو مرتبطة غير معتمدة إجمالي الشرائح
HTML ما يصل إلى 3000 حرف = وحدة صفحة واحدة أو صور مضمنة أو مرتبطة غير مدعومة إجمالي الصفحات التي يصل عددها إلى 3000 حرف لكل منها
# Analyze pages.
for page in result.pages:
print(f"----Analyzing layout from page #{page.page_number}----")
print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")

استخراج الصفحات المحددة

بالنسبة إلى المستندات الكبيرة متعددة الصفحات، استخدم معلمة pages الاستعلام للإشارة إلى أرقام صفحات أو نطاقات صفحات معينة لاستخراج النص.

الفقرات

يستخرج نموذج التخطيط كافة كتل النص المحددة في paragraphs المجموعة ككائن المستوى الأعلى ضمن analyzeResults. يمثل كل إدخال في هذه المجموعة كتلة نص و.. /يتضمن النص المستخرج كإحداثياتcontentالإحاطة polygon . span تشير المعلومات إلى جزء النص ضمن خاصية المستوى content الأعلى التي تحتوي على النص الكامل من المستند.


"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

أدوار الفقرة

يستخرج الكشف الجديد عن كائن الصفحة المستند إلى التعلم الآلي الأدوار المنطقية مثل العناوين وعناوين المقاطع ورؤوس الصفحات وتذييلات الصفحات والمزيد. يعين نموذج تخطيط المعلومات المستندية كتل نصية معينة في paragraphs المجموعة مع دورها المتخصص أو النوع الذي يتوقعه النموذج. من الأفضل استخدام أدوار الفقرات مع المستندات غير المنظمة للمساعدة في فهم تخطيط المحتوى المستخرج لتحليل دلالي أكثر ثراء. يتم اعتماد أدوار الفقرة التالية:

الدور المتوقع الوصف أنواع الملفات المعتمدة
title العناوين الرئيسية في الصفحة pdf، صورة، docx، pptx، xlsx، html
sectionHeading عنوان فرعي واحد أو أكثر على الصفحة pdf، صورة، docx، xlsx، html
footnote نص بالقرب من أسفل الصفحة pdf، صورة
pageHeader نص بالقرب من الحافة العلوية للصفحة pdf، صورة، مستند
pageFooter نص بالقرب من الحافة السفلية للصفحة pdf، صورة، docx، pptx، html
pageNumber رقم الصفحة pdf، صورة
{
    "paragraphs": [
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "title",
                    "content": "NEWS TODAY"
                },
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "sectionHeading",
                    "content": "Mirjam Nilsson"
                }
    ]
}

النص والخطوط والكلمات

يستخرج نموذج تخطيط المستند في Document Intelligence نص النمط المطبوع والمكتوب بخط اليد ك lines و words. styles تتضمن المجموعة أي نمط مكتوب بخط اليد للخطوط إذا تم اكتشافه مع الامتدادات التي تشير إلى النص المقترن. تنطبق هذه الميزة على اللغات المعتمدة المكتوبة بخط اليد.

بالنسبة إلى Microsoft Word وExcel وPowerPoint وHTML، يقوم نموذج تخطيط Document Intelligence v4.0 2024-11-30 (GA) باستخراج النص المضمن كما هو. يتم استخراج النصوص ككلمات وفقرات. الصور المضمنة غير مدعومة.

# Analyze lines.
if page.lines:
    for line_idx, line in enumerate(page.lines):
    words = get_words(page, line)
    print(
        f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
        f"within bounding polygon '{line.polygon}'"
    )

    # Analyze words.
    for word in words:
        print(f"......Word '{word.content}' has a confidence of {word.confidence}")

نمط مكتوب بخط اليد لخطوط النص

الاستجابة .. /يتضمن تصنيف ما إذا كان كل سطر نص بنمط الكتابة اليدوية أم لا، إلى جانب درجة الثقة. لمزيد من المعلومات. راجع دعم اللغة المكتوبة بخط اليد. يوضح المثال التالي مثالا لمقتطف JSON.

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

إذا قمت بتمكين إمكانية إضافة الخط/النمط، فستحصل أيضا على نتيجة الخط/النمط كجزء من styles العنصر.

علامات التحديد

يستخرج نموذج التخطيط أيضا علامات التحديد من المستندات. تظهر علامات التحديد المستخرجة pages داخل المجموعة لكل صفحة. وهي تتضمن الحدود polygonو confidenceو والتحديد state (selected/unselected). يتم أيضا تضمين تمثيل النص (أي و:unselected:selected:) كفهرس البداية (offset) ويشير length إلى خاصية المستوى content الأعلى التي تحتوي على النص الكامل من المستند.

# Analyze selection marks.
if page.selection_marks:
    for selection_mark in page.selection_marks:
        print(
            f"Selection mark is '{selection_mark.state}' within bounding polygon "
            f"'{selection_mark.polygon}' and has a confidence of {selection_mark.confidence}"
        )

المناضد

استخراج الجداول هو مطلب رئيسي لمعالجة المستندات التي تحتوي على كميات كبيرة من البيانات المنسقة عادة كجداول. يستخرج نموذج التخطيط الجداول في pageResults قسم من إخراج JSON. معلومات الجدول المستخرجة .. /يتضمن عدد الأعمدة والصفوف وامتداد الصف وامتداد الأعمدة. يتم إخراج كل خلية ذات المضلع المحيط بها مع معلومات حول ما إذا كان يتم التعرف على المنطقة على columnHeader أنها أم لا. يدعم النموذج استخراج الجداول التي يتم تدويرها. تحتوي كل خلية جدول على فهرس الصفوف والأعمدة وإحداثيات المضلع المحيط. بالنسبة إلى نص الخلية، يقوم النموذج لإخراج المعلومات التي span تحتوي على فهرس البداية (offset). يقوم النموذج أيضا إخراج length داخل محتوى المستوى الأعلى الذي يحتوي على النص الكامل من المستند.

فيما يلي بعض العوامل التي يجب مراعاتها عند استخدام إمكانية استخراج البالة Document Intelligence:

  • هل البيانات التي تريد استخراجها مقدمة كجدول، هل بنية الجدول ذات معنى؟

  • هل يمكن احتواء البيانات في شبكة ثنائية الأبعاد إذا لم تكن البيانات بتنسيق جدول؟

  • هل تمتد الجداول على صفحات متعددة؟ إذا كان الأمر كذلك، لتجنب الاضطرار إلى تسمية جميع الصفحات، قم بتقسيم ملف PDF إلى صفحات قبل إرساله إلى Document Intelligence. بعد التحليل، قم بمعالجة الصفحات إلى جدول واحد بعد ذلك.

  • راجع الحقول الجدولية إذا كنت تقوم بإنشاء نماذج مخصصة. تحتوي الجداول الديناميكية على عدد متغير من الصفوف لكل عمود. تحتوي الجداول الثابتة على عدد ثابت من الصفوف لكل عمود.

ملاحظة

  • تحليل الجدول غير مدعوم إذا كان ملف الإدخال XLSX.
  • بالنسبة إلى 2024-11-30 (GA)، تغطي المناطق الحدودية للأرقام والجداول المحتوى الأساسي فقط وتستبعد التسميات التوضيحية والحواشي السفلية المقترنة.
if result.tables:
    for table_idx, table in enumerate(result.tables):
        print(f"Table # {table_idx} has {table.row_count} rows and " f"{table.column_count} columns")
        if table.bounding_regions:
            for region in table.bounding_regions:
                print(f"Table # {table_idx} location on page: {region.page_number} is {region.polygon}")
        # Analyze cells.
        for cell in table.cells:
            print(f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'")
            if cell.bounding_regions:
                for region in cell.bounding_regions:
                print(f"...content on page {region.page_number} is within bounding polygon '{region.polygon}'")

استجابة الإخراج لتنسيق markdown

يمكن لواجهة برمجة تطبيقات التخطيط إخراج النص المستخرج بتنسيق markdown. outputContentFormat=markdown استخدم لتحديد تنسيق الإخراج في markdown. يتم إخراج محتوى markdown كجزء من content القسم.

ملاحظة

بالنسبة إلى الإصدار 4.0 2024-11-30 (GA)، يتم تغيير تمثيل الجداول إلى جداول HTML لتمكين عرض الخلايا المدمجة، والرؤوس متعددة الصفوف، وما إلى ذلك. تغيير آخر ذي صلة هو استخدام أحرف ☒ خانة الاختيار Unicode وعلامات ☐ التحديد بدلا من :selected: و :unselected:. يعني هذا التحديث أن محتوى حقول علامات التحديد يحتوي على :selected: الرغم من أن امتداداتها تشير إلى أحرف Unicode في نطاق المستوى الأعلى. راجع تنسيق إخراج Markdown للحصول على تعريف كامل لعناصر Markdown.

document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
    "prebuilt-layout",
    AnalyzeDocumentRequest(url_source=url),
    output_content_format=ContentFormat.MARKDOWN,
)

الارقام

تلعب الأرقام (المخططات والصور) في الوثائق دورا حاسما في استكمال وتعزيز المحتوى النصي، وتوفير تمثيلات مرئية تساعد في فهم المعلومات المعقدة. يحتوي كائن الرسوم التوضيحية الذي تم اكتشافه بواسطة نموذج التخطيط على خصائص رئيسية مثل boundingRegions (المواقع المكانية للرسم التوضيحي على صفحات المستند، بما في ذلك رقم الصفحة وإحداثيات المضلع التي تحدد حدود الرسم التوضيحي)، spans (تفاصيل تمتد النص المتعلقة بالرسم التوضيحي، وتحديد إزاحاتها وأطوالها داخل نص المستند. يساعد هذا الاتصال في إقران الشكل بالسياق النصي ذي الصلة)، elements (معرفات العناصر النصية أو الفقرات داخل المستند التي ترتبط بالشكل التوضيحي أو تصفه) وإذا caption كان هناك أي منها.

عند تحديد output=figures أثناء عملية التحليل الأولية، تنشئ الخدمة صورا مقتصة لجميع الأرقام المكتشفة التي يمكن الوصول إليها عبر /analyeResults/{resultId}/figures/{figureId}. FigureId يتم تضمينه في كل كائن شكلي، باتباع اصطلاح غير مسجل حيث {pageNumber}.{figureIndex}figureIndex تتم إعادة التعيين إلى واحد لكل صفحة.

ملاحظة

بالنسبة إلى الإصدار 4.0 2024-11-30 (GA)، تغطي المناطق الحدودية للأرقام والجداول المحتوى الأساسي فقط وتستبعد التسميات التوضيحية والحواشي السفلية المقترنة.

# Analyze figures.
if result.figures:
    for figures_idx,figures in enumerate(result.figures):
        print(f"Figure # {figures_idx} has the following spans:{figures.spans}")
        for region in figures.bounding_regions:
            print(f"Figure # {figures_idx} location on page:{region.page_number} is within bounding polygon '{region.polygon}'")

الأقسام

يعد تحليل بنية المستندات الهرمية محوريا في تنظيم المستندات الشاملة وإدراكها ومعالجتها. يعد هذا النهج حيويا لتقسيم الوثائق الطويلة دلاليا لتعزيز الفهم وتسهيل التنقل وتحسين استرداد المعلومات. إن ظهور الجيل المعزز باسترداد (RAG) في الذكاء الاصطناعي إنشاء المستندات يؤكد أهمية تحليل هيكل المستند الهرمي. يدعم نموذج التخطيط المقاطع والأقسام الفرعية في الإخراج، والذي يحدد علاقة المقاطع والعنصر داخل كل مقطع. يتم الاحتفاظ بالبنية الهرمية في elements كل قسم. يمكنك استخدام استجابة الإخراج لتنسيق markdown للحصول على المقاطع والأقسام الفرعية بسهولة في markdown.

document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
    "prebuilt-layout",
    AnalyzeDocumentRequest(url_source=url),
    output_content_format=ContentFormat.MARKDOWN,
)

ينطبق هذا المحتوى على:checkmarkv3.1 (GA) | أحدث إصدار:أرجواني-علامة اختيارv4.0 (GA) | الإصدارات السابقة:blue-checkmarkv3.0blue-checkmarkv2.1

ينطبق هذا المحتوى على:checkmarkv3.0 (GA) | أحدث الإصدارات:أرجوانية-checkmarkv4.0 (GA)أرجوانية-checkmarkv3.1 | الإصدار السابق:blue-checkmarkv2.1

ينطبق هذا المحتوى على:checkmarkv2.1 | أحدث إصدار:blue-checkmarkv4.0 (GA)

نموذج تخطيط ذكاء المستند هو واجهة برمجة تطبيقات متقدمة لتحليل المستندات المستندة إلى التعلم الآلي متوفرة في سحابة Document Intelligence. يمكنك من أخذ المستندات بتنسيقات مختلفة وإرجاع تمثيلات البيانات المنظمة للمستندات. فهو يجمع بين إصدار محسن من قدرات التعرف البصري على الحروف (OCR) القوية مع نماذج التعلم العميق لاستخراج النص والجداول وعلامات التحديد وبنية المستند.

تحليل تخطيط المستند

تحليل تخطيط بنية المستند هو عملية تحليل مستند لاستخراج المناطق ذات الاهتمام والعلاقات بينهما. الهدف هو استخراج النص والعناصر الهيكلية من الصفحة لبناء نماذج فهم دلالي أفضل. يوجد نوعان من الأدوار في تخطيط المستند:

  • الأدوار الهندسية: النص والجداول والأشكال وعلامات التحديد هي أمثلة على الأدوار الهندسية.
  • الأدوار المنطقية: العناوين والعناوين والتذييلات هي أمثلة للأدوار المنطقية للنصوص.

يوضح الرسم التوضيحي التالي المكونات النموذجية في صورة لصفحة عينة.

رسم توضيحي لمثال تخطيط المستند.

اللغات واللغات المدعومة

راجع صفحة نماذج تحليل اللغة للحصول على قائمة كاملة باللغات المدعومة.

يدعم Document Intelligence v2.1 الأدوات والتطبيقات والمكتبات التالية:

ميزة الموارد
نموذج التخطيط • أداة
تسمية ذكاء المستندREST API
مكتبة العميل SDK
حاوية Docker لذكاء المستند

إرشادات الإدخال

تنسيقات الملفات المدعومة:

نموذج PDF الصورة:
JPEG/JPG، PNG، BMP، ، TIFFHEIF
Microsoft Office:
Word (DOCX)، Excel (XLSX)، PowerPoint (PPTX)، HTML
قراءة
تخطيط
مستند عام
تم الإنشاء مسبقا
استخراج مخصص
تصنيف مخصص
  • للحصول على أفضل النتائج، قم بتوفير صورة واحدة واضحة أو فحص عالي الجودة لكل مستند.

  • بالنسبة إلى PDF وTIFF، يمكن معالجة ما يصل إلى 2000 صفحة (مع اشتراك الطبقة المجانية، تتم معالجة أول صفحتين فقط).

  • حجم الملف لتحليل المستندات هو 500 ميغابايت للطبقة المدفوعة (S0) وMB 4 مجانا (F0).

  • يجب أن تتراوح أبعاد الصورة بين 50 بكسل × 50 بكسل و10000 بكسل × 10000 بكسل.

  • إذا كانت ملفات PDF مؤمنة بكلمة مرور، فيجب إزالة التأمين قبل الإرسال.

  • الحد الأدنى لارتفاع النص المراد استخراجه هو 12 بكسل لصورة 1024 × 768 بكسل. يتوافق هذا البعد مع نص النقطة تقريبا 8 عند 150 نقطة لكل بوصة (DPI).

  • بالنسبة لتدريب النموذج المخصص، الحد الأقصى لعدد الصفحات لبيانات التدريب هو 500 لنموذج القالب المخصص و50000 للنموذج العصبي المخصص.

    • لتدريب نموذج الاستخراج المخصص، يبلغ الحجم الإجمالي لبيانات التدريب 50 ميغابايت لنموذج القالب وGB 1 للنموذج العصبي.

    • بالنسبة لتدريب نموذج التصنيف المخصص، يكون الحجم الإجمالي لبيانات 1 التدريب GB بحد أقصى 10000 صفحة. بالنسبة إلى 2024-11-30 (GA)، يكون الحجم الإجمالي لبيانات 2 التدريب GB بحد أقصى 10000 صفحة.

دليل الإدخال

  • تنسيقات الملفات المدعومة: JPEG وPNG وPDF وTIFF.
  • عدد الصفحات المدعومة: بالنسبة إلى PDF وTIFF، تتم معالجة ما يصل إلى 2000 صفحة. لمشتركي المستوى المجاني، تتم معالجة أول صفحتين فقط.
  • حجم الملف المدعوم: يجب أن يكون حجم الملف أقل من 50 ميغابايت وأبعاد 50 × 50 بكسل على الأقل و10000 × 10000 بكسل على الأكثر.

الشروع في العمل

تعرف على كيفية استخراج البيانات، بما في ذلك النص والجداول ورؤوس الجداول وعلامات التحديد ومعلومات البنية من المستندات باستخدام Document Intelligence. تحتاج إلى الموارد التالية:

  • اشتراك Azure - يمكنك إنشاء اشتراك مجانا.

  • مثيل Document Intelligence في مدخل Microsoft Azure. يمكنك استخدام مستوى التسعير المجاني (F0) لتجربة الخدمة. بعد نشر المورد، حدد Go to resource للحصول على المفتاح ونقطة النهاية.

لقطة شاشة للمفاتيح وموقع نقطة النهاية في مدخل Microsoft Azure.

بعد استرداد المفتاح ونقطة النهاية، يمكنك استخدام خيارات التطوير التالية لإنشاء تطبيقات Document Intelligence وتوزيعها:

ملاحظة

يتوفر Document Intelligence Studio مع واجهات برمجة التطبيقات v3.0 والإصدارات الأحدث.

واجهة برمجة تطبيقات REST

أداة تسمية نموذج تحليل معلومات المستند

  1. انتقل إلى أداة نموذج Document Intelligence.

  2. في الصفحة الرئيسية لأداة العينة، حدد استخدام التخطيط للحصول على النص والجداول وعلامات التحديد.

    لقطة شاشة لإعدادات الاتصال لعملية تخطيط تحليل معلومات المستند.

  3. في حقل نقطة نهاية خدمة Document Intelligence ، الصق نقطة النهاية التي حصلت عليها باستخدام اشتراك Document Intelligence.

  4. في حقل المفتاح ، الصق المفتاح الذي حصلت عليه من مورد Document Intelligence.

  5. في حقل المصدر ، حدد URL من القائمة المنسدلة يمكنك استخدام نموذج المستند:

  6. حدد Run Layout. تستدعي Analyze Layout أداة تسمية نموذج تحليل معلومات المستند واجهة برمجة التطبيقات لتحليل المستند.

    لقطة شاشة لنافذة القائمة المنسدلة

  7. عرض النتائج - راجع النص المميز المستخرج وعلامات التحديد المكتشفة والجداول المكتشفة.

    لقطة شاشة لإعدادات الاتصال لأداة تسمية نموذج تحليل معلومات المستند.

يدعم Document Intelligence v2.1 الأدوات والتطبيقات والمكتبات التالية:

ميزة الموارد
واجهة برمجة تطبيقات التخطيط • أداة
تسمية ذكاء المستندREST API
مكتبة العميل SDK
حاوية Docker لذكاء المستند

استخراج البيانات

يستخرج نموذج التخطيط العناصر الهيكلية من مستنداتك. فيما يلي أوصاف لهذه العناصر الهيكلية مع إرشادات حول كيفية استخراجها من إدخال المستند:

استخراج البيانات

يستخرج نموذج التخطيط العناصر الهيكلية من مستنداتك. فيما يلي أوصاف لهذه العناصر الهيكلية مع إرشادات حول كيفية استخراجها من إدخال المستند:

صفحة

مجموعة الصفحات هي قائمة بالصفحات داخل المستند. يتم تمثيل كل صفحة بشكل تسلسلي داخل المستند و.. /يتضمن زاوية الاتجاه التي تشير إلى ما إذا كانت الصفحة قد استدارت والعرض والارتفاع (الأبعاد بالبكسل). يتم حساب وحدات الصفحة في إخراج النموذج كما هو موضح:

تنسيق الملف وحدة الصفحة المحسوبة إجمالي الصفحات
الصور (JPEG/JPG، PNG، BMP، HEIF) كل صورة = وحدة صفحة واحدة إجمالي الصور
PDF كل صفحة في PDF = وحدة صفحة واحدة إجمالي الصفحات في ملف PDF
TIFF كل صورة في TIFF = وحدة صفحة واحدة إجمالي الصور في TIFF
Word (DOCX) ما يصل إلى 3000 حرف = وحدة صفحة واحدة أو صور مضمنة أو مرتبطة غير مدعومة إجمالي الصفحات التي يصل عددها إلى 3000 حرف لكل منها
Excel (XLSX) كل ورقة عمل = وحدة صفحة واحدة أو صور مضمنة أو مرتبطة غير معتمدة إجمالي أوراق العمل
PowerPoint (PPTX) كل شريحة = وحدة صفحة واحدة أو صور مضمنة أو مرتبطة غير معتمدة إجمالي الشرائح
HTML ما يصل إلى 3000 حرف = وحدة صفحة واحدة أو صور مضمنة أو مرتبطة غير مدعومة إجمالي الصفحات التي يصل عددها إلى 3000 حرف لكل منها
"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]
# Analyze pages.
for page in result.pages:
    print(f"----Analyzing layout from page #{page.page_number}----")
    print(
        f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
    )

استخراج الصفحات المحددة من المستندات

بالنسبة إلى المستندات الكبيرة متعددة الصفحات، استخدم معلمة pages الاستعلام للإشارة إلى أرقام صفحات أو نطاقات صفحات معينة لاستخراج النص.

الفقرة

يستخرج نموذج التخطيط كافة كتل النص المحددة في paragraphs المجموعة ككائن المستوى الأعلى ضمن analyzeResults. يمثل كل إدخال في هذه المجموعة كتلة نص و.. /يتضمن النص المستخرج كإحداثياتcontentالإحاطة polygon . span تشير المعلومات إلى جزء النص ضمن خاصية المستوى content الأعلى التي تحتوي على النص الكامل من المستند.


"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

دور الفقرة

يستخرج الكشف الجديد عن كائن الصفحة المستند إلى التعلم الآلي الأدوار المنطقية مثل العناوين وعناوين المقاطع ورؤوس الصفحات وتذييلات الصفحات والمزيد. يعين نموذج تخطيط المعلومات المستندية كتل نصية معينة في paragraphs المجموعة مع دورها المتخصص أو النوع الذي يتوقعه النموذج. من الأفضل استخدام أدوار الفقرات مع المستندات غير المنظمة للمساعدة في فهم تخطيط المحتوى المستخرج لتحليل دلالي أكثر ثراء. يتم اعتماد أدوار الفقرة التالية:

الدور المتوقع الوصف أنواع الملفات المعتمدة
title العناوين الرئيسية في الصفحة pdf، صورة، docx، pptx، xlsx، html
sectionHeading عنوان فرعي واحد أو أكثر على الصفحة pdf، صورة، docx، xlsx، html
footnote نص بالقرب من أسفل الصفحة pdf، صورة
pageHeader نص بالقرب من الحافة العلوية للصفحة pdf، صورة، مستند
pageFooter نص بالقرب من الحافة السفلية للصفحة pdf، صورة، docx، pptx، html
pageNumber رقم الصفحة pdf، صورة
{
    "paragraphs": [
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "title",
                    "content": "NEWS TODAY"
                },
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "sectionHeading",
                    "content": "Mirjam Nilsson"
                }
    ]
}

النص والسطر والكلمة

يستخرج نموذج تخطيط المستند في Document Intelligence نص النمط المطبوع والمكتوب بخط اليد ك lines و words. styles المجموعة .. /يتضمن أي نمط مكتوب بخط اليد للخطوط إذا تم اكتشافه مع الامتدادات التي تشير إلى النص المقترن. تنطبق هذه الميزة على اللغات المعتمدة المكتوبة بخط اليد.

بالنسبة إلى Microsoft Word وExcel وPowerPoint وHTML، يقوم نموذج تخطيط Document Intelligence v4.0 2024-11-30 (GA) باستخراج النص المضمن كما هو. يتم استخراج النصوص ككلمات وفقرات. الصور المضمنة غير مدعومة.

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]
# Analyze lines.
for line_idx, line in enumerate(page.lines):
    words = line.get_words()
    print(
        f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
        f"within bounding polygon '{format_polygon(line.polygon)}'"
    )

    # Analyze words.
    for word in words:
        print(
            f"......Word '{word.content}' has a confidence of {word.confidence}"
        )

نمط مكتوب بخط اليد

الاستجابة .. /يتضمن تصنيف ما إذا كان كل سطر نص بنمط الكتابة اليدوية أم لا، إلى جانب درجة الثقة. لمزيد من المعلومات. راجع دعم اللغة المكتوبة بخط اليد. يوضح المثال التالي مثالا لمقتطف JSON.

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

إذا قمت بتمكين إمكانية إضافة الخط/النمط، فستحصل أيضا على نتيجة الخط/النمط كجزء من styles العنصر.

علامة التحديد

يستخرج نموذج التخطيط أيضا علامات التحديد من المستندات. تظهر علامات التحديد المستخرجة pages داخل المجموعة لكل صفحة. وهي تتضمن الحدود polygonو confidenceو والتحديد state (selected/unselected). يتم أيضا تضمين تمثيل النص (أي و:unselected:selected:) كفهرس البداية (offset) ويشير length إلى خاصية المستوى content الأعلى التي تحتوي على النص الكامل من المستند.

{
    "selectionMarks": [
        {
            "state": "unselected",
            "polygon": [],
            "confidence": 0.995,
            "span": {
                "offset": 1421,
                "length": 12
            }
        }
    ]
}
# Analyze selection marks.
for selection_mark in page.selection_marks:
    print(
        f"Selection mark is '{selection_mark.state}' within bounding polygon "
        f"'{format_polygon(selection_mark.polygon)}' and has a confidence of {selection_mark.confidence}"
    )

الجدول

استخراج الجداول هو مطلب رئيسي لمعالجة المستندات التي تحتوي على كميات كبيرة من البيانات المنسقة عادة كجداول. يستخرج نموذج التخطيط الجداول في pageResults قسم من إخراج JSON. معلومات الجدول المستخرجة .. /يتضمن عدد الأعمدة والصفوف وامتداد الصف وامتداد الأعمدة. يتم إخراج كل خلية ذات المضلع المحيط بها مع معلومات حول ما إذا كان يتم التعرف على المنطقة على columnHeader أنها أم لا. يدعم النموذج استخراج الجداول التي يتم تدويرها. تحتوي كل خلية جدول على فهرس الصفوف والأعمدة وإحداثيات المضلع المحيط. بالنسبة إلى نص الخلية، يقوم النموذج لإخراج المعلومات التي span تحتوي على فهرس البداية (offset). يقوم النموذج أيضا إخراج length داخل محتوى المستوى الأعلى الذي يحتوي على النص الكامل من المستند.

فيما يلي بعض العوامل التي يجب مراعاتها عند استخدام إمكانية استخراج البالة Document Intelligence:

  • هل البيانات التي تريد استخراجها مقدمة كجدول، هل بنية الجدول ذات معنى؟

  • هل يمكن احتواء البيانات في شبكة ثنائية الأبعاد إذا لم تكن البيانات بتنسيق جدول؟

  • هل تمتد الجداول على صفحات متعددة؟ إذا كان الأمر كذلك، لتجنب الاضطرار إلى تسمية جميع الصفحات، قم بتقسيم ملف PDF إلى صفحات قبل إرساله إلى Document Intelligence. بعد التحليل، قم بمعالجة الصفحات إلى جدول واحد بعد ذلك.

  • راجع الحقول الجدولية إذا كنت تقوم بإنشاء نماذج مخصصة. تحتوي الجداول الديناميكية على عدد متغير من الصفوف لكل عمود. تحتوي الجداول الثابتة على عدد ثابت من الصفوف لكل عمود.

ملاحظة

  • تحليل الجدول غير مدعوم إذا كان ملف الإدخال XLSX.
  • يدعم Document Intelligence v4.0 2024-11-30 (GA) المناطق الحدودية للأرقام والجداول التي تغطي المحتوى الأساسي فقط وتستبعد التسميات التوضيحية والحواشي السفلية المقترنة.
{
    "tables": [
        {
            "rowCount": 9,
            "columnCount": 4,
            "cells": [
                {
                    "kind": "columnHeader",
                    "rowIndex": 0,
                    "columnIndex": 0,
                    "columnSpan": 4,
                    "content": "(In millions, except earnings per share)",
                    "boundingRegions": [],
                    "spans": []
                    },
            ]
        }
    ]
}

# Analyze tables.
for table_idx, table in enumerate(result.tables):
    print(
        f"Table # {table_idx} has {table.row_count} rows and "
        f"{table.column_count} columns"
    )
    for region in table.bounding_regions:
        print(
            f"Table # {table_idx} location on page: {region.page_number} is {format_polygon(region.polygon)}"
        )
    for cell in table.cells:
        print(
            f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'"
        )
        for region in cell.bounding_regions:
            print(
                f"...content on page {region.page_number} is within bounding polygon '{format_polygon(region.polygon)}'"
            )

تعليقات توضيحية

يستخرج نموذج التخطيط التعليقات التوضيحية في المستندات، مثل عمليات التحقق والعبور. الاستجابة .. /يتضمن نوع التعليق التوضيحي، جنبا إلى جنب مع درجة الثقة والمضلع المحيط.

    {
    "pages": [
    {
        "annotations": [
        {
            "kind": "cross",
            "polygon": [...],
            "confidence": 1
        }
        ]
    }
    ]
}

إخراج ترتيب القراءة الطبيعية (اللاتينية فقط)

يمكنك تحديد الترتيب الذي يتم به إخراج أسطر النص باستخدام معلمة readingOrder الاستعلام. استخدم natural لإخراج ترتيب قراءة أكثر ملاءمة للإنسان كما هو موضح في المثال التالي. هذه الميزة مدعومة فقط للغات اللاتينية.

لقطة شاشة لمعالجة ترتيب قراءة النموذج

تحديد رقم الصفحة أو النطاق لاستخراج النص

بالنسبة إلى المستندات الكبيرة متعددة الصفحات، استخدم معلمة pages الاستعلام للإشارة إلى أرقام صفحات أو نطاقات صفحات معينة لاستخراج النص. يوضح المثال التالي مستندا يحتوي على 10 صفحات، مع استخراج النص لكلتا الحالتين - كل الصفحات (1-10) والصفحات المحددة (3-6).

لقطة شاشة لإخراج الصفحات المحددة لنموذج التخطيط.

عملية الحصول على تحليل نتيجة التخطيط

الخطوة الثانية هي استدعاء عملية الحصول على تحليل نتيجة التخطيط . تأخذ هذه العملية كمدخل معرف النتيجة الذي أنشأته Analyze Layout العملية. تقوم بإرجاع استجابة JSON التي تحتوي على حقل حالة بالقيم المحتملة التالية.

الحقل النوع القيم المحتملة
حالة خيط notStarted: لم يتم بدء عملية التحليل.
running
: عملية التحليل قيد التقدم.
failed
: فشلت عملية التحليل.

succeeded: نجحت عملية التحليل.

قم باستدعاء هذه العملية بشكل متكرر حتى تقوم بإرجاع succeeded القيمة. لتجنب تجاوز الطلبات في الثانية (RPS)، استخدم فاصلا زمنيا من 3 إلى 5 ثوان.

عندما يحتوي حقل الحالة على succeeded القيمة، تكون استجابة JSON .. /يتضمن التخطيط المستخرج والنص والجداول وعلامات التحديد. البيانات المستخرجة .. /يتضمن الأسطر والكلمات النصية المستخرجة، والمربعات المحيطة، ومظهر النص مع الإشارة المكتوبة بخط اليد، والجداول، وعلامات التحديد مع الإشارة إليها محددة/غير محددة.

التصنيف المكتوب بخط اليد للخطوط النصية (اللاتينية فقط)

الاستجابة .. /يتضمن تصنيف ما إذا كان كل سطر نص بنمط الكتابة اليدوية أم لا، إلى جانب درجة الثقة. هذه الميزة مدعومة فقط للغات اللاتينية. يوضح المثال التالي التصنيف المكتوب بخط اليد للنص في الصورة.

لقطة شاشة لعملية تصنيف الكتابة اليدوية لنموذج

عينة إخراج JSON

الاستجابة لعملية الحصول على تحليل نتيجة التخطيط هي تمثيل منظم للمستند مع استخراج جميع المعلومات. انظر هنا للحصول على نموذج ملف مستندوإخراج تخطيط نموذج الإخراج المنظم الخاص به.

يحتوي إخراج JSON على جزأين:

  • readResults تحتوي العقدة على كل النص الذي تم التعرف عليه وعلامة التحديد. التسلسل الهرمي للعرض التقديمي للنص هو صفحة، ثم سطر، ثم كلمات فردية.
  • pageResults تحتوي العقدة على الجداول والخلايا المستخرجة بمربعات الإحاطة والثقة والمرجع إلى الأسطر والكلمات في حقل "readResults".

مثال على الإخراج

النص

تستخرج واجهة برمجة تطبيقات التخطيط النص من المستندات والصور بزوايا وألوان نصية متعددة. وهو يقبل صور المستندات والفاكسات والنصوص المطبوعة و/أو المكتوبة بخط اليد (باللغة الإنجليزية فقط) والأوضاع المختلطة. يتم استخراج النص بالمعلومات المتوفرة على الأسطر والكلمات ومربعات الإحاطة ودرجات الثقة والنمط (مكتوب بخط اليد أو غير ذلك). يتم تضمين جميع المعلومات النصية في readResults قسم من إخراج JSON.

الجداول ذات الرؤوس

تستخرج واجهة برمجة تطبيقات التخطيط الجداول في pageResults قسم إخراج JSON. يمكن مسح المستندات ضوئيا أو تصويرها أو رقمنتها. يمكن أن تكون الجداول معقدة مع الخلايا أو الأعمدة المدمجة، مع حدود أو بدونها، وبزوايا فردية. معلومات الجدول المستخرجة .. /يتضمن عدد الأعمدة والصفوف وامتداد الصف وامتداد الأعمدة. يتم إخراج كل خلية بمربع الإحاطة الخاص بها مع ما إذا كان يتم التعرف على المنطقة كجزء من رأس أم لا. يمكن أن تمتد خلايا الرأس المتوقعة للنموذج على صفوف متعددة، وهي ليست بالضرورة الصفوف الأولى في جدول. كما أنها تعمل مع الجداول التي تم تدويرها. كل خلية جدول أيضا .. /يتضمن النص الكامل مع مراجع إلى الكلمات الفردية في readResults المقطع.

مثال على الجداول

علامات التحديد (المستندات)

تستخرج واجهة برمجة تطبيقات التخطيط أيضا علامات التحديد من المستندات. تتضمن علامات التحديد المستخرجة المربع المحيط والثقة والحالة (محدد/غير محدد). يتم استخراج معلومات علامة التحديد في readResults قسم من إخراج JSON.

دليل الترحيل

الخطوات التالية