ما هو نموذج تخطيط تحليل معلومات المستند؟

2025-05-05

ينطبق هذا المحتوى على:v4.0 (GA) | الإصدارات السابقة:v3.1 (GA)v3.0 (GA)v2.1 (GA)

نموذج تخطيط ذكاء المستند هو واجهة برمجة تطبيقات متقدمة لتحليل المستندات المستندة إلى التعلم الآلي متوفرة في سحابة Document Intelligence. يمكنك من أخذ المستندات بتنسيقات مختلفة وإرجاع تمثيلات البيانات المنظمة للمستندات. فهو يجمع بين إصدار محسن من قدرات التعرف البصري على الحروف (OCR) القوية مع نماذج التعلم العميق لاستخراج النص والجداول وعلامات التحديد وبنية المستند.

تحليل تخطيط بنية المستند

تحليل تخطيط بنية المستند هو عملية تحليل مستند لاستخراج المناطق ذات الاهتمام والعلاقات بينهما. الهدف هو استخراج النص والعناصر الهيكلية من الصفحة لبناء نماذج فهم دلالي أفضل. يوجد نوعان من الأدوار في تخطيط المستند:

الأدوار الهندسية: النص والجداول والأشكال وعلامات التحديد هي أمثلة على الأدوار الهندسية.
الأدوار المنطقية: العناوين والعناوين والتذييلات هي أمثلة للأدوار المنطقية للنصوص.

يوضح الرسم التوضيحي التالي المكونات النموذجية في صورة لصفحة عينة.

رسم توضيحي لمثال تخطيط المستند.

خيارات التطوير

يدعم Document Intelligence v4.0: 2024-11-30 (GA) الأدوات والتطبيقات والمكتبات التالية:

ميزة	الموارد	معرف النموذج
نموذج التخطيط	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	تخطيط مسبق الإنشاء

اللغات المدعومة

راجع دعم اللغة — نماذج تحليل المستندات للحصول على قائمة كاملة باللغات المدعومة.

أنواع الملفات المعتمدة

يدعم نموذج تخطيط Document Intelligence v4.0: 2024-11-30 (GA) تنسيقات الملفات التالية:

نموذج	PDF	الصورة: `JPEG/JPG`، `PNG`، `BMP`، ، `TIFFHEIF`	Microsoft Office: Word (`DOCX`)، Excel (`XLSX`)، PowerPoint (`PPTX`)، HTML
تخطيط	✔	✔	✔

متطلبات الإدخال

للحصول على أفضل النتائج، قم بتوفير صورة واحدة واضحة أو فحص عالي الجودة لكل مستند.
بالنسبة إلى PDF وTIFF، يمكن معالجة ما يصل إلى 2000 صفحة (مع اشتراك الطبقة المجانية، تتم معالجة أول صفحتين فقط).
إذا كانت ملفات PDF مؤمنة بكلمة مرور، فيجب إزالة التأمين قبل الإرسال.
حجم الملف لتحليل المستندات هو 500 ميغابايت للطبقة المدفوعة (S0) وMB 4 مجانا (F0).
يجب أن تتراوح أبعاد الصورة بين 50 بكسل × 50 بكسل و10000 بكسل × 10000 بكسل.
الحد الأدنى لارتفاع النص المراد استخراجه هو 12 بكسل لصورة 1024 × 768 بكسل. يتوافق هذا البعد مع نص النقطة تقريبا 8 عند 150 نقطة لكل بوصة (DPI).
بالنسبة لتدريب النموذج المخصص، الحد الأقصى لعدد الصفحات لبيانات التدريب هو 500 لنموذج القالب المخصص و50000 للنموذج العصبي المخصص.
- لتدريب نموذج الاستخراج المخصص، يبلغ الحجم الإجمالي لبيانات التدريب 50 ميغابايت لنموذج القالب وGB 1 للنموذج العصبي.
- بالنسبة لتدريب نموذج التصنيف المخصص، يكون الحجم الإجمالي لبيانات 1 التدريب GB بحد أقصى 10000 صفحة. بالنسبة إلى 2024-11-30 (GA)، يكون الحجم الإجمالي لبيانات 2 التدريب GB بحد أقصى 10000 صفحة.

لمزيد من المعلومات حول استخدام النموذج والحصص النسبية وحدود الخدمة، راجعحدود الخدمة.

بدء استخدام نموذج التخطيط

تعرف على كيفية استخراج البيانات، بما في ذلك النص والجداول ورؤوس الجداول وعلامات التحديد ومعلومات البنية من المستندات باستخدام Document Intelligence. تحتاج إلى الموارد التالية:

اشتراك Azure - يمكنك إنشاء اشتراك مجانا.
مثيل Document Intelligence في مدخل Microsoft Azure. يمكنك استخدام مستوى التسعير المجاني (F0) لتجربة الخدمة. بعد نشر المورد، حدد Go to resource للحصول على المفتاح ونقطة النهاية.

بعد استرداد المفتاح ونقطة النهاية، استخدم خيارات التطوير التالية لإنشاء تطبيقات تحليل معلومات المستند ونشرها:

استخراج البيانات

يستخرج نموذج التخطيط العناصر الهيكلية من مستنداتك. فيما يلي أوصاف لهذه العناصر الهيكلية مع إرشادات حول كيفية استخراجها من إدخال المستند:

الصفحات
الفقرات
النص والخطوط والكلمات
علامات التحديد
المناضد
استجابة الإخراج إلى markdown
الارقام
مقاطع

قم بتشغيل نموذج تحليل مستند التخطيط داخل Document Intelligence Studio، ثم انتقل إلى علامة تبويب النتائج والوصول إلى إخراج JSON الكامل.

لقطة شاشة لنتائج علامة تبويب إخراج JSON في Document Intelligence Studio.

الصفحات

مجموعة الصفحات هي قائمة بالصفحات داخل المستند. يتم تمثيل كل صفحة بشكل تسلسلي داخل المستند وتتضمن زاوية الاتجاه التي تشير إلى ما إذا كان يتم تدوير الصفحة والعرض والارتفاع (الأبعاد بالبكسل). يتم حساب وحدات الصفحة في إخراج النموذج كما هو موضح:

تنسيق الملف	وحدة الصفحة المحسوبة	إجمالي الصفحات
الصور (JPEG/JPG، PNG، BMP، HEIF)	كل صورة = وحدة صفحة واحدة	إجمالي الصور
PDF	كل صفحة في PDF = وحدة صفحة واحدة	إجمالي الصفحات في ملف PDF
TIFF	كل صورة في TIFF = وحدة صفحة واحدة	إجمالي الصور في TIFF
Word (DOCX)	ما يصل إلى 3000 حرف = وحدة صفحة واحدة أو صور مضمنة أو مرتبطة غير مدعومة	إجمالي الصفحات التي يصل عددها إلى 3000 حرف لكل منها
Excel (XLSX)	كل ورقة عمل = وحدة صفحة واحدة أو صور مضمنة أو مرتبطة غير معتمدة	إجمالي أوراق العمل
PowerPoint (PPTX)	كل شريحة = وحدة صفحة واحدة أو صور مضمنة أو مرتبطة غير معتمدة	إجمالي الشرائح
HTML	ما يصل إلى 3000 حرف = وحدة صفحة واحدة أو صور مضمنة أو مرتبطة غير مدعومة	إجمالي الصفحات التي يصل عددها إلى 3000 حرف لكل منها

نموذج التعليمات البرمجية
إخراج

# Analyze pages.
for page in result.pages:
print(f"----Analyzing layout from page #{page.page_number}----")
print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")

عرض العينات على GitHub.

"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

استخراج الصفحات المحددة

بالنسبة إلى المستندات الكبيرة متعددة الصفحات، استخدم معلمة pages الاستعلام للإشارة إلى أرقام صفحات أو نطاقات صفحات معينة لاستخراج النص.

الفقرات

يستخرج نموذج التخطيط كافة كتل النص المحددة في paragraphs المجموعة ككائن المستوى الأعلى ضمن analyzeResults. يمثل كل إدخال في هذه المجموعة كتلة نص و.. /يتضمن النص المستخرج كإحداثياتcontentالإحاطة polygon . span تشير المعلومات إلى جزء النص ضمن خاصية المستوى content الأعلى التي تحتوي على النص الكامل من المستند.


"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

أدوار الفقرة

يستخرج الكشف الجديد عن كائن الصفحة المستند إلى التعلم الآلي الأدوار المنطقية مثل العناوين وعناوين المقاطع ورؤوس الصفحات وتذييلات الصفحات والمزيد. يعين نموذج تخطيط المعلومات المستندية كتل نصية معينة في paragraphs المجموعة مع دورها المتخصص أو النوع الذي يتوقعه النموذج. من الأفضل استخدام أدوار الفقرات مع المستندات غير المنظمة للمساعدة في فهم تخطيط المحتوى المستخرج لتحليل دلالي أكثر ثراء. يتم اعتماد أدوار الفقرة التالية:

الدور المتوقع	الوصف	أنواع الملفات المعتمدة
`title`	العناوين الرئيسية في الصفحة	pdf، صورة، docx، pptx، xlsx، html
`sectionHeading`	عنوان فرعي واحد أو أكثر على الصفحة	pdf، صورة، docx، xlsx، html
`footnote`	نص بالقرب من أسفل الصفحة	pdf، صورة
`pageHeader`	نص بالقرب من الحافة العلوية للصفحة	pdf، صورة، مستند
`pageFooter`	نص بالقرب من الحافة السفلية للصفحة	pdf، صورة، docx، pptx، html
`pageNumber`	رقم الصفحة	pdf، صورة

{
    "paragraphs": [
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "title",
                    "content": "NEWS TODAY"
                },
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "sectionHeading",
                    "content": "Mirjam Nilsson"
                }
    ]
}

النص والخطوط والكلمات

يستخرج نموذج تخطيط المستند في Document Intelligence نص النمط المطبوع والمكتوب بخط اليد ك lines و words. styles تتضمن المجموعة أي نمط مكتوب بخط اليد للخطوط إذا تم اكتشافه مع الامتدادات التي تشير إلى النص المقترن. تنطبق هذه الميزة على اللغات المعتمدة المكتوبة بخط اليد.

بالنسبة إلى Microsoft Word وExcel وPowerPoint وHTML، يقوم نموذج تخطيط Document Intelligence v4.0 2024-11-30 (GA) باستخراج النص المضمن كما هو. يتم استخراج النصوص ككلمات وفقرات. الصور المضمنة غير مدعومة.

نموذج التعليمات البرمجية
إخراج

# Analyze lines.
if page.lines:
    for line_idx, line in enumerate(page.lines):
    words = get_words(page, line)
    print(
        f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
        f"within bounding polygon '{line.polygon}'"
    )

    # Analyze words.
    for word in words:
        print(f"......Word '{word.content}' has a confidence of {word.confidence}")

عرض العينات على GitHub.

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

نمط مكتوب بخط اليد لخطوط النص

الاستجابة .. /يتضمن تصنيف ما إذا كان كل سطر نص بنمط الكتابة اليدوية أم لا، إلى جانب درجة الثقة. لمزيد من المعلومات. راجع دعم اللغة المكتوبة بخط اليد. يوضح المثال التالي مثالا لمقتطف JSON.

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

إذا قمت بتمكين إمكانية إضافة الخط/النمط، فستحصل أيضا على نتيجة الخط/النمط كجزء من styles العنصر.

علامات التحديد

يستخرج نموذج التخطيط أيضا علامات التحديد من المستندات. تظهر علامات التحديد المستخرجة pages داخل المجموعة لكل صفحة. وهي تتضمن الحدود polygonو confidenceو والتحديد state (selected/unselected). يتم أيضا تضمين تمثيل النص (أي و:unselected:selected:) كفهرس البداية (offset) ويشير length إلى خاصية المستوى content الأعلى التي تحتوي على النص الكامل من المستند.

نموذج التعليمات البرمجية
إخراج

# Analyze selection marks.
if page.selection_marks:
    for selection_mark in page.selection_marks:
        print(
            f"Selection mark is '{selection_mark.state}' within bounding polygon "
            f"'{selection_mark.polygon}' and has a confidence of {selection_mark.confidence}"
        )

عرض العينات على GitHub.

{
    "selectionMarks": [
        {
            "state": "unselected",
            "polygon": [],
            "confidence": 0.995,
            "span": {
                "offset": 1421,
                "length": 12
            }
        }
    ]
}

المناضد

استخراج الجداول هو مطلب رئيسي لمعالجة المستندات التي تحتوي على كميات كبيرة من البيانات المنسقة عادة كجداول. يستخرج نموذج التخطيط الجداول في pageResults قسم من إخراج JSON. معلومات الجدول المستخرجة .. /يتضمن عدد الأعمدة والصفوف وامتداد الصف وامتداد الأعمدة. يتم إخراج كل خلية ذات المضلع المحيط بها مع معلومات حول ما إذا كان يتم التعرف على المنطقة على columnHeader أنها أم لا. يدعم النموذج استخراج الجداول التي يتم تدويرها. تحتوي كل خلية جدول على فهرس الصفوف والأعمدة وإحداثيات المضلع المحيط. بالنسبة إلى نص الخلية، يقوم النموذج لإخراج المعلومات التي span تحتوي على فهرس البداية (offset). يقوم النموذج أيضا إخراج length داخل محتوى المستوى الأعلى الذي يحتوي على النص الكامل من المستند.

فيما يلي بعض العوامل التي يجب مراعاتها عند استخدام إمكانية استخراج البالة Document Intelligence:

هل البيانات التي تريد استخراجها مقدمة كجدول، هل بنية الجدول ذات معنى؟
هل يمكن احتواء البيانات في شبكة ثنائية الأبعاد إذا لم تكن البيانات بتنسيق جدول؟
هل تمتد الجداول على صفحات متعددة؟ إذا كان الأمر كذلك، لتجنب الاضطرار إلى تسمية جميع الصفحات، قم بتقسيم ملف PDF إلى صفحات قبل إرساله إلى Document Intelligence. بعد التحليل، قم بمعالجة الصفحات إلى جدول واحد بعد ذلك.
راجع الحقول الجدولية إذا كنت تقوم بإنشاء نماذج مخصصة. تحتوي الجداول الديناميكية على عدد متغير من الصفوف لكل عمود. تحتوي الجداول الثابتة على عدد ثابت من الصفوف لكل عمود.

ملاحظة

تحليل الجدول غير مدعوم إذا كان ملف الإدخال XLSX.
بالنسبة إلى 2024-11-30 (GA)، تغطي المناطق الحدودية للأرقام والجداول المحتوى الأساسي فقط وتستبعد التسميات التوضيحية والحواشي السفلية المقترنة.

نموذج التعليمات البرمجية
إخراج

if result.tables:
    for table_idx, table in enumerate(result.tables):
        print(f"Table # {table_idx} has {table.row_count} rows and " f"{table.column_count} columns")
        if table.bounding_regions:
            for region in table.bounding_regions:
                print(f"Table # {table_idx} location on page: {region.page_number} is {region.polygon}")
        # Analyze cells.
        for cell in table.cells:
            print(f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'")
            if cell.bounding_regions:
                for region in cell.bounding_regions:
                print(f"...content on page {region.page_number} is within bounding polygon '{region.polygon}'")

عرض العينات على GitHub.

{
    "tables": [
        {
            "rowCount": 9,
            "columnCount": 4,
            "cells": [
                {
                    "kind": "columnHeader",
                    "rowIndex": 0,
                    "columnIndex": 0,
                    "columnSpan": 4,
                    "content": "(In millions, except earnings per share)",
                    "boundingRegions": [],
                    "spans": []
                    },
            ]
        }
    ]
}

استجابة الإخراج لتنسيق markdown

يمكن لواجهة برمجة تطبيقات التخطيط إخراج النص المستخرج بتنسيق markdown. outputContentFormat=markdown استخدم لتحديد تنسيق الإخراج في markdown. يتم إخراج محتوى markdown كجزء من content القسم.

ملاحظة

بالنسبة إلى الإصدار 4.0 2024-11-30 (GA)، يتم تغيير تمثيل الجداول إلى جداول HTML لتمكين عرض الخلايا المدمجة، والرؤوس متعددة الصفوف، وما إلى ذلك. تغيير آخر ذي صلة هو استخدام أحرف ☒ خانة الاختيار Unicode وعلامات ☐ التحديد بدلا من :selected: و :unselected:. يعني هذا التحديث أن محتوى حقول علامات التحديد يحتوي على :selected: الرغم من أن امتداداتها تشير إلى أحرف Unicode في نطاق المستوى الأعلى. راجع تنسيق إخراج Markdown للحصول على تعريف كامل لعناصر Markdown.

نموذج التعليمات البرمجية
إخراج

document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
    "prebuilt-layout",
    AnalyzeDocumentRequest(url_source=url),
    output_content_format=ContentFormat.MARKDOWN,
)

عرض العينات على GitHub.

PageHeader="This is the header of the document."

This is title
===
# 1\. Text
Latin refers to an ancient Italic language originating in the region of Latium in ancient Rome.
# 2\. Page Objects
## 2.1 Table
Here's a sample table below, designed to be simple for easy understand and quick reference.
| Name | Corp | Remark |
| - | - | - |
| Foo | | |
| Bar | Microsoft | Dummy |
Table 1: This is a dummy table
## 2.2. Figure
<figure>
<figcaption>

Figure 1: Here is a figure with text
</figcaption>

![](figures/0)
FigureContent="500 450 400 400 350 250 200 200 200- Feb"
</figure>

# 3\. Others
Al Document Intelligence is an Al service that applies advanced machine learning to extract text, key-value pairs, tables, and structures from documents automatically and accurately:
    :selected:
clear
    :selected:
precise
    :unselected:
vague
    :selected:
coherent
    :unselected:
Incomprehensible
Turn documents into usable data and shift your focus to acting on information rather than compiling it. Start with prebuilt models or create custom models tailored to your documents both on premises and in the cloud with the Al Document Intelligence studio or SDK.
Learn how to accelerate your business processes by automating text extraction with Al Document Intelligence. This webinar features hands-on demos for key use cases such as document processing, knowledge mining, and industry-specific Al model customization.
PageFooter="This is the footer of the document."
PageFooter="1 | Page"

الارقام

تلعب الأرقام (المخططات والصور) في الوثائق دورا حاسما في استكمال وتعزيز المحتوى النصي، وتوفير تمثيلات مرئية تساعد في فهم المعلومات المعقدة. يحتوي كائن الرسوم التوضيحية الذي تم اكتشافه بواسطة نموذج التخطيط على خصائص رئيسية مثل boundingRegions (المواقع المكانية للرسم التوضيحي على صفحات المستند، بما في ذلك رقم الصفحة وإحداثيات المضلع التي تحدد حدود الرسم التوضيحي)، spans (تفاصيل تمتد النص المتعلقة بالرسم التوضيحي، وتحديد إزاحاتها وأطوالها داخل نص المستند. يساعد هذا الاتصال في إقران الشكل بالسياق النصي ذي الصلة)، elements (معرفات العناصر النصية أو الفقرات داخل المستند التي ترتبط بالشكل التوضيحي أو تصفه) وإذا caption كان هناك أي منها.

عند تحديد output=figures أثناء عملية التحليل الأولية، تنشئ الخدمة صورا مقتصة لجميع الأرقام المكتشفة التي يمكن الوصول إليها عبر /analyeResults/{resultId}/figures/{figureId}. FigureId يتم تضمينه في كل كائن شكلي، باتباع اصطلاح غير مسجل حيث {pageNumber}.{figureIndex}figureIndex تتم إعادة التعيين إلى واحد لكل صفحة.

ملاحظة

بالنسبة إلى الإصدار 4.0 2024-11-30 (GA)، تغطي المناطق الحدودية للأرقام والجداول المحتوى الأساسي فقط وتستبعد التسميات التوضيحية والحواشي السفلية المقترنة.

نموذج التعليمات البرمجية
إخراج

# Analyze figures.
if result.figures:
    for figures_idx,figures in enumerate(result.figures):
        print(f"Figure # {figures_idx} has the following spans:{figures.spans}")
        for region in figures.bounding_regions:
            print(f"Figure # {figures_idx} location on page:{region.page_number} is within bounding polygon '{region.polygon}'")

عرض العينات على GitHub.

{
    "figures": [
        {
        "id": "{figureId}",
        "boundingRegions": [],
        "spans": [],
        "elements": [
            "/paragraphs/15",
            ...
        ],
        "caption": {
            "content": "Here is a figure with some text",
            "boundingRegions": [],
            "spans": [],
            "elements": [
            "/paragraphs/15"
            ]
        }
        }
    ]
}

لقطة شاشة للأمثلة على أرقام المستندات.

الأقسام

يعد تحليل بنية المستندات الهرمية محوريا في تنظيم المستندات الشاملة وإدراكها ومعالجتها. يعد هذا النهج حيويا لتقسيم الوثائق الطويلة دلاليا لتعزيز الفهم وتسهيل التنقل وتحسين استرداد المعلومات. إن ظهور الجيل المعزز باسترداد (RAG) في الذكاء الاصطناعي إنشاء المستندات يؤكد أهمية تحليل هيكل المستند الهرمي. يدعم نموذج التخطيط المقاطع والأقسام الفرعية في الإخراج، والذي يحدد علاقة المقاطع والعنصر داخل كل مقطع. يتم الاحتفاظ بالبنية الهرمية في elements كل قسم. يمكنك استخدام استجابة الإخراج لتنسيق markdown للحصول على المقاطع والأقسام الفرعية بسهولة في markdown.

نموذج التعليمات البرمجية
إخراج

document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
    "prebuilt-layout",
    AnalyzeDocumentRequest(url_source=url),
    output_content_format=ContentFormat.MARKDOWN,
)

عرض العينات على GitHub.

{
    "sections": [
        {
        "spans": [],
        "elements": [
            "/paragraphs/0",
            "/sections/1",
            "/sections/2",
            "/sections/5"
        ]
        },
...
}

لقطة شاشة للأمثلة على أقسام المستندات.

ينطبق هذا المحتوى على:v3.1 (GA) | أحدث إصدار:v4.0 (GA) | الإصدارات السابقة:v3.0v2.1

ينطبق هذا المحتوى على:v3.0 (GA) | أحدث الإصدارات:v4.0 (GA)v3.1 | الإصدار السابق:v2.1

ينطبق هذا المحتوى على:v2.1 | أحدث إصدار:v4.0 (GA)

تحليل تخطيط المستند

الأدوار الهندسية: النص والجداول والأشكال وعلامات التحديد هي أمثلة على الأدوار الهندسية.
الأدوار المنطقية: العناوين والعناوين والتذييلات هي أمثلة للأدوار المنطقية للنصوص.

يوضح الرسم التوضيحي التالي المكونات النموذجية في صورة لصفحة عينة.

رسم توضيحي لمثال تخطيط المستند.

اللغات واللغات المدعومة

راجع صفحة نماذج تحليل اللغة للحصول على قائمة كاملة باللغات المدعومة.

يدعم Document Intelligence v2.1 الأدوات والتطبيقات والمكتبات التالية:

ميزة	الموارد
نموذج التخطيط	• أداة تسمية ذكاء المستند• REST API • مكتبة العميل SDK • حاوية Docker لذكاء المستند

إرشادات الإدخال

تنسيقات الملفات المدعومة:

نموذج	PDF	الصورة: `JPEG/JPG`، `PNG`، `BMP`، ، `TIFFHEIF`	Microsoft Office: Word (`DOCX`)، Excel (`XLSX`)، PowerPoint (`PPTX`)، HTML
قراءة	✔	✔	✔
تخطيط	✔	✔
مستند عام	✔	✔
تم الإنشاء مسبقا	✔	✔
استخراج مخصص	✔	✔
تصنيف مخصص	✔	✔	✔

للحصول على أفضل النتائج، قم بتوفير صورة واحدة واضحة أو فحص عالي الجودة لكل مستند.
بالنسبة إلى PDF وTIFF، يمكن معالجة ما يصل إلى 2000 صفحة (مع اشتراك الطبقة المجانية، تتم معالجة أول صفحتين فقط).
حجم الملف لتحليل المستندات هو 500 ميغابايت للطبقة المدفوعة (S0) وMB 4 مجانا (F0).
يجب أن تتراوح أبعاد الصورة بين 50 بكسل × 50 بكسل و10000 بكسل × 10000 بكسل.
إذا كانت ملفات PDF مؤمنة بكلمة مرور، فيجب إزالة التأمين قبل الإرسال.
الحد الأدنى لارتفاع النص المراد استخراجه هو 12 بكسل لصورة 1024 × 768 بكسل. يتوافق هذا البعد مع نص النقطة تقريبا 8 عند 150 نقطة لكل بوصة (DPI).
بالنسبة لتدريب النموذج المخصص، الحد الأقصى لعدد الصفحات لبيانات التدريب هو 500 لنموذج القالب المخصص و50000 للنموذج العصبي المخصص.
- لتدريب نموذج الاستخراج المخصص، يبلغ الحجم الإجمالي لبيانات التدريب 50 ميغابايت لنموذج القالب وGB 1 للنموذج العصبي.
- بالنسبة لتدريب نموذج التصنيف المخصص، يكون الحجم الإجمالي لبيانات 1 التدريب GB بحد أقصى 10000 صفحة. بالنسبة إلى 2024-11-30 (GA)، يكون الحجم الإجمالي لبيانات 2 التدريب GB بحد أقصى 10000 صفحة.

دليل الإدخال

تنسيقات الملفات المدعومة: JPEG وPNG وPDF وTIFF.
عدد الصفحات المدعومة: بالنسبة إلى PDF وTIFF، تتم معالجة ما يصل إلى 2000 صفحة. لمشتركي المستوى المجاني، تتم معالجة أول صفحتين فقط.
حجم الملف المدعوم: يجب أن يكون حجم الملف أقل من 50 ميغابايت وأبعاد 50 × 50 بكسل على الأقل و10000 × 10000 بكسل على الأكثر.

الشروع في العمل

اشتراك Azure - يمكنك إنشاء اشتراك مجانا.
مثيل Document Intelligence في مدخل Microsoft Azure. يمكنك استخدام مستوى التسعير المجاني (F0) لتجربة الخدمة. بعد نشر المورد، حدد Go to resource للحصول على المفتاح ونقطة النهاية.

لقطة شاشة للمفاتيح وموقع نقطة النهاية في مدخل Microsoft Azure.

بعد استرداد المفتاح ونقطة النهاية، يمكنك استخدام خيارات التطوير التالية لإنشاء تطبيقات Document Intelligence وتوزيعها:

ملاحظة

يتوفر Document Intelligence Studio مع واجهات برمجة التطبيقات v3.0 والإصدارات الأحدث.

واجهة برمجة تطبيقات REST

Document Intelligence v2.1 (Form Recognizer)

أداة تسمية نموذج تحليل معلومات المستند

انتقل إلى أداة نموذج Document Intelligence.
في الصفحة الرئيسية لأداة العينة، حدد استخدام التخطيط للحصول على النص والجداول وعلامات التحديد.
في حقل نقطة نهاية خدمة Document Intelligence ، الصق نقطة النهاية التي حصلت عليها باستخدام اشتراك Document Intelligence.
في حقل المفتاح ، الصق المفتاح الذي حصلت عليه من مورد Document Intelligence.
في حقل المصدر ، حدد URL من القائمة المنسدلة يمكنك استخدام نموذج المستند:
- نموذج مستند.
- حدد الزر إحضار .
حدد Run Layout. تستدعي Analyze Layout أداة تسمية نموذج تحليل معلومات المستند واجهة برمجة التطبيقات لتحليل المستند.
عرض النتائج - راجع النص المميز المستخرج وعلامات التحديد المكتشفة والجداول المكتشفة.

يدعم Document Intelligence v2.1 الأدوات والتطبيقات والمكتبات التالية:

ميزة	الموارد
واجهة برمجة تطبيقات التخطيط	• أداة تسمية ذكاء المستند• REST API • مكتبة العميل SDK • حاوية Docker لذكاء المستند

استخراج البيانات

صفحة
فقرة
النص والسطر والكلمة
علامة التحديد
جدول
ترتيب القراءة الطبيعي
تحديد رقم الصفحة أو النطاق

صفحة

مجموعة الصفحات هي قائمة بالصفحات داخل المستند. يتم تمثيل كل صفحة بشكل تسلسلي داخل المستند و.. /يتضمن زاوية الاتجاه التي تشير إلى ما إذا كانت الصفحة قد استدارت والعرض والارتفاع (الأبعاد بالبكسل). يتم حساب وحدات الصفحة في إخراج النموذج كما هو موضح:

تنسيق الملف	وحدة الصفحة المحسوبة	إجمالي الصفحات
الصور (JPEG/JPG، PNG، BMP، HEIF)	كل صورة = وحدة صفحة واحدة	إجمالي الصور
PDF	كل صفحة في PDF = وحدة صفحة واحدة	إجمالي الصفحات في ملف PDF
TIFF	كل صورة في TIFF = وحدة صفحة واحدة	إجمالي الصور في TIFF
Word (DOCX)	ما يصل إلى 3000 حرف = وحدة صفحة واحدة أو صور مضمنة أو مرتبطة غير مدعومة	إجمالي الصفحات التي يصل عددها إلى 3000 حرف لكل منها
Excel (XLSX)	كل ورقة عمل = وحدة صفحة واحدة أو صور مضمنة أو مرتبطة غير معتمدة	إجمالي أوراق العمل
PowerPoint (PPTX)	كل شريحة = وحدة صفحة واحدة أو صور مضمنة أو مرتبطة غير معتمدة	إجمالي الشرائح
HTML	ما يصل إلى 3000 حرف = وحدة صفحة واحدة أو صور مضمنة أو مرتبطة غير مدعومة	إجمالي الصفحات التي يصل عددها إلى 3000 حرف لكل منها

"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

نموذج التعليمات البرمجية
إخراج

# Analyze pages.
for page in result.pages:
    print(f"----Analyzing layout from page #{page.page_number}----")
    print(
        f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
    )

عرض العينات على GitHub.

"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

استخراج الصفحات المحددة من المستندات

الفقرة


"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

دور الفقرة

الدور المتوقع	الوصف	أنواع الملفات المعتمدة
`title`	العناوين الرئيسية في الصفحة	pdf، صورة، docx، pptx، xlsx، html
`sectionHeading`	عنوان فرعي واحد أو أكثر على الصفحة	pdf، صورة، docx، xlsx، html
`footnote`	نص بالقرب من أسفل الصفحة	pdf، صورة
`pageHeader`	نص بالقرب من الحافة العلوية للصفحة	pdf، صورة، مستند
`pageFooter`	نص بالقرب من الحافة السفلية للصفحة	pdf، صورة، docx، pptx، html
`pageNumber`	رقم الصفحة	pdf، صورة

{
    "paragraphs": [
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "title",
                    "content": "NEWS TODAY"
                },
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "sectionHeading",
                    "content": "Mirjam Nilsson"
                }
    ]
}

النص والسطر والكلمة

يستخرج نموذج تخطيط المستند في Document Intelligence نص النمط المطبوع والمكتوب بخط اليد ك lines و words. styles المجموعة .. /يتضمن أي نمط مكتوب بخط اليد للخطوط إذا تم اكتشافه مع الامتدادات التي تشير إلى النص المقترن. تنطبق هذه الميزة على اللغات المعتمدة المكتوبة بخط اليد.

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

نموذج التعليمات البرمجية
إخراج

# Analyze lines.
for line_idx, line in enumerate(page.lines):
    words = line.get_words()
    print(
        f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
        f"within bounding polygon '{format_polygon(line.polygon)}'"
    )

    # Analyze words.
    for word in words:
        print(
            f"......Word '{word.content}' has a confidence of {word.confidence}"
        )

عرض العينات على GitHub.

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

نمط مكتوب بخط اليد

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

إذا قمت بتمكين إمكانية إضافة الخط/النمط، فستحصل أيضا على نتيجة الخط/النمط كجزء من styles العنصر.

علامة التحديد

{
    "selectionMarks": [
        {
            "state": "unselected",
            "polygon": [],
            "confidence": 0.995,
            "span": {
                "offset": 1421,
                "length": 12
            }
        }
    ]
}

نموذج التعليمات البرمجية
إخراج

# Analyze selection marks.
for selection_mark in page.selection_marks:
    print(
        f"Selection mark is '{selection_mark.state}' within bounding polygon "
        f"'{format_polygon(selection_mark.polygon)}' and has a confidence of {selection_mark.confidence}"
    )

عرض العينات على GitHub.

{
    "selectionMarks": [
        {
            "state": "unselected",
            "polygon": [],
            "confidence": 0.995,
            "span": {
                "offset": 1421,
                "length": 12
            }
        }
    ]
}

الجدول

فيما يلي بعض العوامل التي يجب مراعاتها عند استخدام إمكانية استخراج البالة Document Intelligence:

هل البيانات التي تريد استخراجها مقدمة كجدول، هل بنية الجدول ذات معنى؟
هل يمكن احتواء البيانات في شبكة ثنائية الأبعاد إذا لم تكن البيانات بتنسيق جدول؟
هل تمتد الجداول على صفحات متعددة؟ إذا كان الأمر كذلك، لتجنب الاضطرار إلى تسمية جميع الصفحات، قم بتقسيم ملف PDF إلى صفحات قبل إرساله إلى Document Intelligence. بعد التحليل، قم بمعالجة الصفحات إلى جدول واحد بعد ذلك.
راجع الحقول الجدولية إذا كنت تقوم بإنشاء نماذج مخصصة. تحتوي الجداول الديناميكية على عدد متغير من الصفوف لكل عمود. تحتوي الجداول الثابتة على عدد ثابت من الصفوف لكل عمود.

ملاحظة

تحليل الجدول غير مدعوم إذا كان ملف الإدخال XLSX.
يدعم Document Intelligence v4.0 2024-11-30 (GA) المناطق الحدودية للأرقام والجداول التي تغطي المحتوى الأساسي فقط وتستبعد التسميات التوضيحية والحواشي السفلية المقترنة.

{
    "tables": [
        {
            "rowCount": 9,
            "columnCount": 4,
            "cells": [
                {
                    "kind": "columnHeader",
                    "rowIndex": 0,
                    "columnIndex": 0,
                    "columnSpan": 4,
                    "content": "(In millions, except earnings per share)",
                    "boundingRegions": [],
                    "spans": []
                    },
            ]
        }
    ]
}

نموذج التعليمات البرمجية
إخراج

# Analyze tables.
for table_idx, table in enumerate(result.tables):
    print(
        f"Table # {table_idx} has {table.row_count} rows and "
        f"{table.column_count} columns"
    )
    for region in table.bounding_regions:
        print(
            f"Table # {table_idx} location on page: {region.page_number} is {format_polygon(region.polygon)}"
        )
    for cell in table.cells:
        print(
            f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'"
        )
        for region in cell.bounding_regions:
            print(
                f"...content on page {region.page_number} is within bounding polygon '{format_polygon(region.polygon)}'"
            )

عرض العينات على GitHub.

{
    "tables": [
        {
            "rowCount": 9,
            "columnCount": 4,
            "cells": [
                {
                    "kind": "columnHeader",
                    "rowIndex": 0,
                    "columnIndex": 0,
                    "columnSpan": 4,
                    "content": "(In millions, except earnings per share)",
                    "boundingRegions": [],
                    "spans": []
                    },
            ]
        }
    ]
}

تعليقات توضيحية

يستخرج نموذج التخطيط التعليقات التوضيحية في المستندات، مثل عمليات التحقق والعبور. الاستجابة .. /يتضمن نوع التعليق التوضيحي، جنبا إلى جنب مع درجة الثقة والمضلع المحيط.

    {
    "pages": [
    {
        "annotations": [
        {
            "kind": "cross",
            "polygon": [...],
            "confidence": 1
        }
        ]
    }
    ]
}

إخراج ترتيب القراءة الطبيعية (اللاتينية فقط)

يمكنك تحديد الترتيب الذي يتم به إخراج أسطر النص باستخدام معلمة readingOrder الاستعلام. استخدم natural لإخراج ترتيب قراءة أكثر ملاءمة للإنسان كما هو موضح في المثال التالي. هذه الميزة مدعومة فقط للغات اللاتينية.

تحديد رقم الصفحة أو النطاق لاستخراج النص

بالنسبة إلى المستندات الكبيرة متعددة الصفحات، استخدم معلمة pages الاستعلام للإشارة إلى أرقام صفحات أو نطاقات صفحات معينة لاستخراج النص. يوضح المثال التالي مستندا يحتوي على 10 صفحات، مع استخراج النص لكلتا الحالتين - كل الصفحات (1-10) والصفحات المحددة (3-6).

لقطة شاشة لإخراج الصفحات المحددة لنموذج التخطيط.

عملية الحصول على تحليل نتيجة التخطيط

الخطوة الثانية هي استدعاء عملية الحصول على تحليل نتيجة التخطيط . تأخذ هذه العملية كمدخل معرف النتيجة الذي أنشأته Analyze Layout العملية. تقوم بإرجاع استجابة JSON التي تحتوي على حقل حالة بالقيم المحتملة التالية.

الحقل	النوع	القيم المحتملة
حالة	خيط	`notStarted`: لم يتم بدء عملية التحليل. `running` : عملية التحليل قيد التقدم. `failed` : فشلت عملية التحليل. `succeeded`: نجحت عملية التحليل.

قم باستدعاء هذه العملية بشكل متكرر حتى تقوم بإرجاع succeeded القيمة. لتجنب تجاوز الطلبات في الثانية (RPS)، استخدم فاصلا زمنيا من 3 إلى 5 ثوان.

عندما يحتوي حقل الحالة على succeeded القيمة، تكون استجابة JSON .. /يتضمن التخطيط المستخرج والنص والجداول وعلامات التحديد. البيانات المستخرجة .. /يتضمن الأسطر والكلمات النصية المستخرجة، والمربعات المحيطة، ومظهر النص مع الإشارة المكتوبة بخط اليد، والجداول، وعلامات التحديد مع الإشارة إليها محددة/غير محددة.

التصنيف المكتوب بخط اليد للخطوط النصية (اللاتينية فقط)

الاستجابة .. /يتضمن تصنيف ما إذا كان كل سطر نص بنمط الكتابة اليدوية أم لا، إلى جانب درجة الثقة. هذه الميزة مدعومة فقط للغات اللاتينية. يوضح المثال التالي التصنيف المكتوب بخط اليد للنص في الصورة.

لقطة شاشة لعملية تصنيف الكتابة اليدوية لنموذج

عينة إخراج JSON

الاستجابة لعملية الحصول على تحليل نتيجة التخطيط هي تمثيل منظم للمستند مع استخراج جميع المعلومات. انظر هنا للحصول على نموذج ملف مستند وإخراج تخطيط نموذج الإخراج المنظم الخاص به.

يحتوي إخراج JSON على جزأين:

readResults تحتوي العقدة على كل النص الذي تم التعرف عليه وعلامة التحديد. التسلسل الهرمي للعرض التقديمي للنص هو صفحة، ثم سطر، ثم كلمات فردية.
pageResults تحتوي العقدة على الجداول والخلايا المستخرجة بمربعات الإحاطة والثقة والمرجع إلى الأسطر والكلمات في حقل "readResults".

مثال على الإخراج

النص

تستخرج واجهة برمجة تطبيقات التخطيط النص من المستندات والصور بزوايا وألوان نصية متعددة. وهو يقبل صور المستندات والفاكسات والنصوص المطبوعة و/أو المكتوبة بخط اليد (باللغة الإنجليزية فقط) والأوضاع المختلطة. يتم استخراج النص بالمعلومات المتوفرة على الأسطر والكلمات ومربعات الإحاطة ودرجات الثقة والنمط (مكتوب بخط اليد أو غير ذلك). يتم تضمين جميع المعلومات النصية في readResults قسم من إخراج JSON.

الجداول ذات الرؤوس

تستخرج واجهة برمجة تطبيقات التخطيط الجداول في pageResults قسم إخراج JSON. يمكن مسح المستندات ضوئيا أو تصويرها أو رقمنتها. يمكن أن تكون الجداول معقدة مع الخلايا أو الأعمدة المدمجة، مع حدود أو بدونها، وبزوايا فردية. معلومات الجدول المستخرجة .. /يتضمن عدد الأعمدة والصفوف وامتداد الصف وامتداد الأعمدة. يتم إخراج كل خلية بمربع الإحاطة الخاص بها مع ما إذا كان يتم التعرف على المنطقة كجزء من رأس أم لا. يمكن أن تمتد خلايا الرأس المتوقعة للنموذج على صفوف متعددة، وهي ليست بالضرورة الصفوف الأولى في جدول. كما أنها تعمل مع الجداول التي تم تدويرها. كل خلية جدول أيضا .. /يتضمن النص الكامل مع مراجع إلى الكلمات الفردية في readResults المقطع.

مثال على الجداول

علامات التحديد (المستندات)

تستخرج واجهة برمجة تطبيقات التخطيط أيضا علامات التحديد من المستندات. تتضمن علامات التحديد المستخرجة المربع المحيط والثقة والحالة (محدد/غير محدد). يتم استخراج معلومات علامة التحديد في readResults قسم من إخراج JSON.

دليل الترحيل

اتبع دليل ترحيل Document Intelligence v3.1 لمعرفة كيفية استخدام إصدار v3.1 في التطبيقات وسير العمل.

الخطوات التالية

تعرف على كيفية معالجة النماذج والمستندات الخاصة بك باستخدام Document Intelligence Studio.
أكمل التشغيل السريع ل Document Intelligence وابدأ في إنشاء تطبيق لمعالجة المستندات بلغة التطوير التي تختارها.

ابحث عن المزيد من العينات على GitHub.

ابحث عن المزيد من العينات على GitHub.

تعرف على كيفية معالجة النماذج والمستندات الخاصة بك باستخدام أداة تسمية نموذج ذكاء المستند.
أكمل التشغيل السريع ل Document Intelligence وابدأ في إنشاء تطبيق لمعالجة المستندات بلغة التطوير التي تختارها.

مشاركة عبر

ما هو نموذج تخطيط تحليل معلومات المستند؟

تحليل تخطيط بنية المستند

خيارات التطوير

اللغات المدعومة

أنواع الملفات المعتمدة

متطلبات الإدخال

بدء استخدام نموذج التخطيط

استخراج البيانات

الصفحات

استخراج الصفحات المحددة

الفقرات

أدوار الفقرة

النص والخطوط والكلمات

نمط مكتوب بخط اليد لخطوط النص

علامات التحديد

المناضد

استجابة الإخراج لتنسيق markdown

الارقام

الأقسام

تحليل تخطيط المستند

اللغات واللغات المدعومة

إرشادات الإدخال

دليل الإدخال

الشروع في العمل

واجهة برمجة تطبيقات REST

أداة تسمية نموذج تحليل معلومات المستند

استخراج البيانات

استخراج البيانات

صفحة

استخراج الصفحات المحددة من المستندات

الفقرة

دور الفقرة

النص والسطر والكلمة

نمط مكتوب بخط اليد

علامة التحديد

الجدول

تعليقات توضيحية

إخراج ترتيب القراءة الطبيعية (اللاتينية فقط)

تحديد رقم الصفحة أو النطاق لاستخراج النص

عملية الحصول على تحليل نتيجة التخطيط

التصنيف المكتوب بخط اليد للخطوط النصية (اللاتينية فقط)

عينة إخراج JSON

مثال على الإخراج

النص

الجداول ذات الرؤوس

علامات التحديد (المستندات)

دليل الترحيل

الخطوات التالية

الملاحظات

الموارد الإضافية