إشعار
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
ينطبق هذا المحتوى على:
v4.0 (GA) | الإصدارات السابقة:
v3.1 (GA)
v3.0 (GA)
v2.1 (GA)
نموذج تخطيط ذكاء المستندات في أدوات الصاهر في Azure هو واجهة برمجة تطبيقات متقدمة لتحليل المستندات تعتمد على التعلم الآلي. يتوفر النموذج في سحابة Document Intelligence. يمكنك استخدامه لأخذ مستندات بتنسيقات مختلفة وإرجاع تمثيلات البيانات المنظمة للمستندات. يجمع النموذج بين إصدار محسن من إمكانات التعرف الضوئي على الأحرف (OCR) القوية مع نماذج التعلم العميق لاستخراج النص والجداول وعلامات التحديد وبنية المستند.
تحليل تخطيط بنية المستند
تحليل تخطيط هيكل المستند هو عملية تحليل المستند لاستخراج مناطق الاهتمام وعلاقاتها المتبادلة. الهدف هو استخراج النص والعناصر الهيكلية من الصفحة لبناء نماذج فهم دلالي أفضل. يوجد نوعان من الأدوار في تخطيط المستند:
- الأدوار الهندسية: النص والجداول والأشكال وعلامات التحديد هي أمثلة على الأدوار الهندسية.
- الأدوار المنطقية: العناوين والعناوين والتذييلات هي أمثلة للأدوار المنطقية للنصوص.
يوضح الرسم التوضيحي التالي المكونات النموذجية في صورة لصفحة عينة.
خيارات التطوير
يدعم ذكاء المستندات الإصدار 4.0: 2024-11-30 (GA) الأدوات والتطبيقات والمكتبات التالية.
| ميزة | الموارد | معرف النموذج |
|---|---|---|
| نموذج التخطيط | • استوديو ذكاء المستندات • واجهة برمجة تطبيقات REST • C # SDK • Python SDK • Java SDK • JavaScript SDK |
prebuilt-layout |
اللغات المدعومة
للحصول على قائمة كاملة باللغات المدعومة، راجع دعم اللغة: نماذج تحليل المستندات.
أنواع الملفات المعتمدة
يدعم نموذج تخطيط ذكاء المستندات الإصدار 4.0: 2024-11-30 (GA) تنسيقات الملفات التالية:
| نموذج | الصورة: JPEG / JPG ، PNG ، BMP ، TIFF ، HEIF |
المكتب: Word (DOCX) ، Excel (XLS) ، PowerPoint (PPTX) ، HTML |
|
|---|---|---|---|
| تخطيط | ✔ | ✔ | ✔ |
متطلبات الإدخال
- الصور الفوتوغرافية والمسح الضوئي: للحصول على أفضل النتائج، قم بتوفير صورة واحدة واضحة أو مسح ضوئي عالي الجودة لكل مستند.
- ملفات PDF وملفات TIFF: بالنسبة لملفات PDF وملفات TIFF، يمكن معالجة ما يصل إلى 2,000 صفحة. (مع اشتراك من الطبقة الحرة، تتم معالجة أول صفحتين فقط.)
- أقفال كلمة المرور: إذا كانت ملفات PDF مقفلة بكلمة مرور، فيجب عليك إزالة القفل قبل الإرسال.
- حجم الملف: حجم الملف لتحليل المستندات هو 500 ميجابايت للطبقة المدفوعة (S0) و 4 ميغابايت للطبقة المجانية (F0).
- أبعاد الصورة: يجب أن تتراوح أبعاد الصورة بين 50 بكسل × 50 بكسل و10,000 بكسل × 10,000 بكسل.
- ارتفاع النص: الحد الأدنى لارتفاع النص المراد استخراجه هو 12 بكسل لصورة 1024 × 768 بكسل. يتوافق هذا البعد مع حوالي نص مكون من 8 نقاط بمعدل 150 نقطة في البوصة.
- تدريب النموذج المخصص: الحد الأقصى لعدد الصفحات لبيانات التدريب هو 500 لنموذج القالب المخصص و 50,000 للنموذج العصبي المخصص.
- تدريب نموذج الاستخراج المخصص: الحجم الإجمالي لبيانات التدريب هو 50 ميجابايت لنموذج القالب و 1 غيغابايت للنموذج العصبي.
- تدريب نموذج التصنيف المخصص: الحجم الإجمالي لبيانات التدريب هو 1 جيجابايت بحد أقصى 10,000 صفحة. بالنسبة إلى 2024-11-30 (GA) ، يبلغ الحجم الإجمالي لبيانات التدريب 2 جيجابايت بحد أقصى 10,000 صفحة.
- أنواع ملفات Office (DOCX ، XLSX ، PPTX)): الحد الأقصى لطول السلسلة هو 8 ملايين حرف.
لمزيد من المعلومات حول استخدام النموذج والحصص النسبية وحدود الخدمة، راجع حدود الخدمة.
بدء استخدام نموذج التخطيط
تعرف على كيفية استخراج البيانات، بما في ذلك النص والجداول ورؤوس الجداول وعلامات التحديد ومعلومات البنية، من المستندات باستخدام ذكاء المستندات. تحتاج إلى الموارد التالية:
اشتراك Azure. يمكنك إنشاء حساب مجانا.
مثيل Document Intelligence في مدخل Microsoft Azure. يمكنك استخدام مستوى التسعير المجاني (F0) لتجربة الخدمة. بعد نشر المورد، حدد Go to resource للحصول على المفتاح ونقطة النهاية.
بعد استرداد المفتاح ونقطة النهاية، استخدم خيارات التطوير التالية لإنشاء تطبيقات التحليل الذكي للمستندات ونشرها.
استخراج البيانات
يستخرج نموذج التخطيط العناصر الهيكلية من مستنداتك. يتم وصف العناصر الهيكلية التالية في بقية هذه المقالة جنبا إلى جنب مع إرشادات حول كيفية استخراجها من إدخال المستند الخاص بك:
- الصفحات
- الفقرات
- النص والخطوط والكلمات
- علامات الاختيار
- المناضد
- استجابة الإخراج لتخفيض السعر
- الارقام
- مقاطع
قم بتشغيل نموذج تحليل مستند التخطيط داخل Document Intelligence Studio. ثم انتقل إلى علامة تبويب النتائج وقم بالوصول إلى إخراج JSON الكامل.
الصفحات
المجموعة pages عبارة عن قائمة بالصفحات داخل المستند. يتم تمثيل كل صفحة بالتتابع داخل المستند وتتضمن زاوية الاتجاه، والتي تشير إلى ما إذا كانت الصفحة قد تم تدويرها والعرض والارتفاع (الأبعاد بالبكسل). يتم حساب وحدات الصفحة في إخراج النموذج كما هو موضح في الجدول التالي.
| تنسيق الملف | وحدة الصفحات المحسوبة | إجمالي الصفحات |
|---|---|---|
| الصور (JPEG/JPG، PNG، BMP، HEIF) | كل صورة = 1 وحدة صفحة. | إجمالي الصور |
| كل صفحة في ملف PDF = وحدة صفحة واحدة. | إجمالي الصفحات في ملف PDF | |
| TIFF | كل صورة في TIFF = وحدة صفحة واحدة. | إجمالي الصور في TIFF |
| كلمة (DOCX) | ما يصل إلى 3,000 حرف = وحدة صفحة واحدة. الصور المضمنة أو المرتبطة غير مدعومة. | إجمالي الصفحات التي يصل عددها إلى 3000 حرف لكل منها |
| إكسل (XLSX) | كل ورقة عمل = 1 وحدة صفحة. الصور المضمنة أو المرتبطة غير مدعومة. | إجمالي أوراق العمل |
| باور بوينت (PPTX) | كل شريحة = 1 وحدة صفحة. الصور المضمنة أو المرتبطة غير مدعومة. | إجمالي الشرائح |
| HTML | ما يصل إلى 3,000 حرف = وحدة صفحة واحدة. الصور المضمنة أو المرتبطة غير مدعومة. | إجمالي الصفحات التي يصل عددها إلى 3000 حرف لكل منها |
- نموذج التعليمات البرمجية
-
إخراج
# Analyze pages.
for page in result.pages:
print(f"----Analyzing layout from page #{page.page_number}----")
print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")
استخراج الصفحات المحددة
بالنسبة للمستندات الكبيرة متعددة الصفحات، استخدم معلمة pages الاستعلام للإشارة إلى أرقام صفحات معينة أو نطاقات صفحات لاستخراج النص.
الفقرات
يستخرج نموذج التخطيط جميع كتل النص المحددة في paragraphs المجموعة ككائن من المستوى الأعلى ضمن analyzeResults. يمثل كل إدخال في هذه المجموعة كتلة نصية ويتضمن النص المستخرج والإحداثيات content المحيطة polygon . تشير spans المعلومات إلى جزء النص داخل خاصية المستوى content الأعلى التي تحتوي على النص الكامل من المستند.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
أدوار الفقرة
يستخرج اكتشاف كائن الصفحة الجديد المستند إلى التعلم الآلي الأدوار المنطقية مثل العناوين وعناوين الأقسام ورؤوس الصفحات وتذييلات الصفحات والمزيد. يقوم نموذج تخطيط "ذكاء المستندات" بتعيين كتل نصية معينة في المجموعة paragraphs مع دورها المتخصص أو نوعها الذي تنبأ به النموذج.
من الأفضل استخدام أدوار الفقرات مع المستندات غير المنظمة للمساعدة في فهم تخطيط المحتوى المستخرج لتحليل دلالي أكثر ثراء. يتم دعم أدوار الفقرة التالية.
| الدور المتوقع | Description | أنواع الملفات المعتمدة |
|---|---|---|
title |
العناوين الرئيسية على الصفحة | PDF ، صورة ، DOCX ، PPTX ، XLSX ، HTML |
sectionHeading |
عنوان فرعي واحد أو أكثر على الصفحة | PDF ، صورة ، DOCX ، XLSX ، HTML |
footnote |
نص بالقرب من أسفل الصفحة | PDF, صورة |
pageHeader |
نص بالقرب من الحافة العلوية للصفحة | PDF, صورة, DOCX |
pageFooter |
نص بالقرب من الحافة السفلية للصفحة | PDF ، صورة ، DOCX ، PPTX ، HTML |
pageNumber |
رقم الصفحة | PDF, صورة |
{
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"role": "title",
"content": "NEWS TODAY"
},
{
"spans": [],
"boundingRegions": [],
"role": "sectionHeading",
"content": "Mirjam Nilsson"
}
]
}
النص والخطوط والكلمات
يستخرج نموذج تخطيط المستند في ذكاء المستندات النص المطبوع والمكتوب بخط اليد ك lines و words. تتضمن المجموعة styles أي نمط مكتوب بخط اليد للسطور ، إذا تم اكتشافه ، جنبا إلى جنب مع الامتدادات التي تشير إلى النص المقترن. تنطبق هذه الميزة على اللغات المعتمدة المكتوبة بخط اليد.
بالنسبة إلى Microsoft Word وExcel وPowerPoint وHTML، يستخرج نموذج تخطيط Document Intelligence v4.0 2024-11-30 (GA) كل النص المضمن كما هو. يتم استخراج النصوص ككلمات وفقرات. الصور المضمنة غير مدعومة.
- نموذج التعليمات البرمجية
-
إخراج
# Analyze lines.
if page.lines:
for line_idx, line in enumerate(page.lines):
words = get_words(page, line)
print(
f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
f"within bounding polygon '{line.polygon}'"
)
# Analyze words.
for word in words:
print(f"......Word '{word.content}' has a confidence of {word.confidence}")
نمط مكتوب بخط اليد لخطوط النص
تتضمن الاستجابة ما إذا كان كل سطر نصي بأسلوب مكتوب بخط اليد أم لا ، إلى جانب درجة الثقة. لمزيد من المعلومات، راجع دعم اللغة المكتوبة بخط اليد. يوضح المثال التالي مثالا لمقتطف JSON.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
إذا قمت بتمكين إمكانية الوظيفة الإضافية للخط/النمط، فستحصل أيضا على نتيجة الخط/النمط كجزء من الكائن styles .
علامات التحديد
يستخرج نموذج التخطيط أيضا علامات التحديد من المستندات. تظهر علامات التحديد المستخرجة pages داخل المجموعة لكل صفحة. وهي تتضمن الحدود polygonو confidenceو والتحديد state (selected/unselected). يتم تضمين تمثيل النص (أي :selected: و :unselected) أيضا كفهرس البداية (offset) ويشير length إلى خاصية المستوى content الأعلى التي تحتوي على النص الكامل من المستند.
- نموذج التعليمات البرمجية
-
إخراج
# Analyze selection marks.
if page.selection_marks:
for selection_mark in page.selection_marks:
print(
f"Selection mark is '{selection_mark.state}' within bounding polygon "
f"'{selection_mark.polygon}' and has a confidence of {selection_mark.confidence}"
)
المناضد
يعد استخراج الجداول مطلبا أساسيا لمعالجة المستندات التي تحتوي على كميات كبيرة من البيانات التي يتم تنسيقها عادة كجداول. يستخرج نموذج التخطيط الجداول في pageResults قسم إخراج JSON. تتضمن معلومات الجدول المستخرجة عدد الأعمدة والصفوف وامتداد الصف وامتداد الأعمدة.
يتم إخراج كل خلية بمضلعها المحيط جنبا إلى جنب مع معلومات ما إذا كانت المنطقة معترف بها أم columnHeader لا. يدعم النموذج استخراج الجداول التي يتم تدويرها. تحتوي كل خلية جدول على فهرس الصفوف والأعمدة وإحداثيات المضلع المحيط. بالنسبة لنص الخلية، يقوم span النموذج بإخراج المعلومات التي تحتوي على فهرس البداية (offset). يقوم النموذج أيضا إخراج length داخل محتوى المستوى الأعلى الذي يحتوي على النص الكامل من المستند.
فيما يلي بعض العوامل التي يجب مراعاتها عند استخدام إمكانية استخراج بالة "ذكاء المستندات":
- هل البيانات التي تريد استخراجها مقدمة كجدول، هل بنية الجدول ذات معنى؟
- هل يمكن احتواء البيانات في شبكة ثنائية الأبعاد إذا لم تكن البيانات بتنسيق جدول؟
- هل تمتد الجداول على صفحات متعددة؟ إذا كان الأمر كذلك، لتجنب الاضطرار إلى تسمية جميع الصفحات، قم بتقسيم ملف PDF إلى صفحات قبل إرساله إلى ذكاء المستندات. بعد التحليل، قم بمعالجة الصفحات إلى جدول واحد بعد ذلك.
- راجع الحقول الجدولية إذا قمت بإنشاء نماذج مخصصة. تحتوي الجداول الديناميكية على عدد متغير من الصفوف لكل عمود. تحتوي الجداول الثابتة على عدد ثابت من الصفوف لكل عمود.
ملاحظة
تحليل الجدول غير مدعوم إذا كان ملف الإدخال XLSX. بالنسبة إلى 2024-11-30 (GA)، تغطي المناطق المحيطة بالأشكال والجداول المحتوى الأساسي فقط وتستبعد التسمية التوضيحية والحواشي السفلية المرتبطة.
- نموذج التعليمات البرمجية
-
إخراج
if result.tables:
for table_idx, table in enumerate(result.tables):
print(f"Table # {table_idx} has {table.row_count} rows and " f"{table.column_count} columns")
if table.bounding_regions:
for region in table.bounding_regions:
print(f"Table # {table_idx} location on page: {region.page_number} is {region.polygon}")
# Analyze cells.
for cell in table.cells:
print(f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'")
if cell.bounding_regions:
for region in cell.bounding_regions:
print(f"...content on page {region.page_number} is within bounding polygon '{region.polygon}'")
استجابة الإخراج لتنسيق Markdown
يمكن لواجهة برمجة تطبيقات التخطيط إخراج النص المستخرج بتنسيق Markdown. استخدم لتحديد outputContentFormat=markdown تنسيق الإخراج في Markdown. يتم إخراج محتوى Markdown كجزء من content القسم.
ملاحظة
بالنسبة للإصدار 4.0 2024-11-30 (GA) ، يتم تغيير تمثيل الجداول إلى جداول HTML لتمكين عرض العناصر مثل الخلايا المدمجة ورؤوس الصفوف المتعددة. تغيير آخر ذي صلة هو استخدام أحرف ☒ خانة الاختيار Unicode وعلامات ☐ التحديد بدلا من :selected: و :unselected:. يعني هذا التحديث أن محتوى حقول علامة التحديد يحتوي على :selected: الرغم من أن امتداداتها تشير إلى أحرف Unicode في نطاق المستوى الأعلى. للحصول على تعريف كامل لعناصر Markdown، راجع تنسيق إخراج Markdown.
- نموذج التعليمات البرمجية
-
إخراج
document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
"prebuilt-layout",
AnalyzeDocumentRequest(url_source=url),
output_content_format=ContentFormat.MARKDOWN,
)
الارقام
تلعب الأشكال (الرسوم البيانية والصور) في الوثائق دورا حاسما في استكمال المحتوى النصي وتحسينه. أنها توفر تمثيلات مرئية تساعد في فهم المعلومات المعقدة. يحتوي الكائن figures الذي تم اكتشافه بواسطة نموذج التخطيط على خصائص رئيسية مثل:
-
boundingRegionsالمواقع المكانية للشكل على صفحات المستند، بما في ذلك رقم الصفحة وإحداثيات المضلع التي تحدد حدود الشكل.: -
spansيمتد النص المرتبط بالشكل الذي يحدد إزاحات وأطوال داخل نص المستند.: يساعد هذا الارتباط في ربط الشكل بسياقه النصي ذي الصلة. -
elementsمعرفات العناصر النصية أو الفقرات داخل المستند المرتبطة بالشكل أو تصفه.: -
captionالوصف إن وجد.:
عند output=figures تحديده أثناء عملية التحليل الأولية، تقوم الخدمة بإنشاء صور مقصوصة لجميع الأشكال المكتشفة التي يمكن الوصول إليها عبر /analyeResults/{resultId}/figures/{figureId}. القيمة FigureId هي المعرف المضمن في كل كائن شكل، باتباع اصطلاح غير موثق لمكان {pageNumber}.{figureIndex} إعادة figureIndex التعيين إلى واحد لكل صفحة.
بالنسبة للإصدار 4.0 2024-11-30 (GA)، تغطي المناطق المحيطة بالأشكال والجداول المحتوى الأساسي فقط وتستبعد التسمية التوضيحية والحواشي السفلية المقترنة.
- نموذج التعليمات البرمجية
-
إخراج
# Analyze figures.
if result.figures:
for figures_idx,figures in enumerate(result.figures):
print(f"Figure # {figures_idx} has the following spans:{figures.spans}")
for region in figures.bounding_regions:
print(f"Figure # {figures_idx} location on page:{region.page_number} is within bounding polygon '{region.polygon}'")
الأقسام
يعد تحليل بنية المستندات الهرمية محوريا في تنظيم المستندات الشاملة وإدراكها ومعالجتها. يعد هذا النهج حيويا لتقسيم الوثائق الطويلة دلاليا لتعزيز الفهم وتسهيل التنقل وتحسين استرداد المعلومات. يؤكد ظهور التوليد المعزز بالاسترجاع (RAG) في الذكاء الاصطناعي لتوليد المستندات على أهمية تحليل هيكل المستندات الهرمي.
يدعم نموذج التخطيط الأقسام والأقسام الفرعية في الإخراج ، والذي يحدد علاقة الأقسام والكائنات داخل كل قسم. يتم الحفاظ على الهيكل الهرمي لكل elements قسم. يمكنك استخدام استجابة الإخراج لتنسيق Markdown للحصول بسهولة على الأقسام والأقسام الفرعية في Markdown.
- نموذج التعليمات البرمجية
-
إخراج
document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
"prebuilt-layout",
AnalyzeDocumentRequest(url_source=url),
output_content_format=ContentFormat.MARKDOWN,
)
ينطبق هذا المحتوى على:
v2.1 | أحدث إصدار:
v4.0 (GA)
نموذج تخطيط التحليل الذكي للمستندات هو واجهة برمجة تطبيقات متقدمة لتحليل المستندات. يعتمد النموذج على التعلم الآلي ومتوفر في سحابة Document Intelligence. يمكنك استخدامه لأخذ مستندات بتنسيقات مختلفة وإرجاع تمثيلات البيانات المنظمة للمستندات. فهو يجمع بين نسخة محسنة من إمكانات التعرف الضوئي على الحروف القوية ونماذج التعلم العميق. يمكنك استخدامه لاستخراج النص والجداول وعلامات التحديد وبنية المستند.
تحليل تخطيط المستند
تحليل تخطيط هيكل المستند هو عملية تحليل المستند لاستخراج مناطق الاهتمام وعلاقاتها المتبادلة. الهدف هو استخراج النص والعناصر الهيكلية من الصفحة لبناء نماذج فهم دلالي أفضل. يوجد نوعان من الأدوار في تخطيط المستند:
- الأدوار الهندسية: النص والجداول والأشكال وعلامات التحديد هي أمثلة على الأدوار الهندسية.
- الأدوار المنطقية: العناوين والعناوين والتذييلات هي أمثلة للأدوار المنطقية للنصوص.
يوضح الرسم التوضيحي التالي المكونات النموذجية في صورة لصفحة عينة.
اللغات واللغات المدعومة
للحصول على قائمة كاملة باللغات المدعومة، راجع دعم اللغة: نماذج تحليل المستندات.
يدعم Document Intelligence v2.1 الأدوات والتطبيقات والمكتبات التالية.
| ميزة | الموارد |
|---|---|
| نموذج التخطيط | • أداة • واجهة برمجة تطبيقات REST • SDK لمكتبة العميل • حاوية Docker لذكاء المستندات |
إرشادات الإدخال
تنسيقات الملفات المدعومة:
| نموذج | الصورة: JPEG / JPG ، PNG ، BMP ، TIFF ، HEIF |
المكتب: Word (DOCX) ، Excel (XLSX) ، PowerPoint (PPTX) ، HTML |
|
|---|---|---|---|
| قراءة | ✔ | ✔ | ✔ |
| تخطيط | ✔ | ✔ | |
| وثيقة عامة | ✔ | ✔ | |
| تم الإنشاء مسبقا | ✔ | ✔ | |
| استخراج مخصص | ✔ | ✔ | |
| تصنيف مخصص | ✔ | ✔ | ✔ |
- الصور الفوتوغرافية والمسح الضوئي: للحصول على أفضل النتائج، قم بتوفير صورة واحدة واضحة أو مسح ضوئي عالي الجودة لكل مستند.
- ملفات PDF وملفات TIFF: بالنسبة لملفات PDF وملفات TIFF، يمكن معالجة ما يصل إلى 2,000 صفحة من خلال اشتراك من الطبقة المجانية. تتم معالجة أول صفحتين فقط.
- حجم الملف: حجم الملف لتحليل المستندات هو 500 ميجابايت للطبقة المدفوعة (S0) و 4 ميغابايت للطبقة المجانية (F0).
- أبعاد الصورة: يجب أن تتراوح أبعاد الصورة بين 50 بكسل × 50 بكسل و10,000 بكسل × 10,000 بكسل.
- أقفال كلمة المرور: إذا كانت ملفات PDF مقفلة بكلمة مرور، فيجب عليك إزالة القفل قبل الإرسال.
- ارتفاع النص: الحد الأدنى لارتفاع النص المراد استخراجه هو 12 بكسل لصورة 1024 × 768 بكسل. يتوافق هذا البعد مع حوالي نص مكون من 8 نقاط بمعدل 150 نقطة في البوصة.
- تدريب النموذج المخصص: الحد الأقصى لعدد الصفحات لبيانات التدريب هو 500 لنموذج القالب المخصص و 50,000 للنموذج العصبي المخصص.
- تدريب نموذج الاستخراج المخصص: الحجم الإجمالي لبيانات التدريب هو 50 ميجابايت لنموذج القالب و 1 غيغابايت للنموذج العصبي.
- تدريب نموذج التصنيف المخصص: الحجم الإجمالي لبيانات التدريب هو 1 جيجابايت بحد أقصى 10,000 صفحة. بالنسبة إلى 2024-11-30 (GA) ، يبلغ الحجم الإجمالي لبيانات التدريب 2 جيجابايت بحد أقصى 10,000 صفحة.
- أنواع ملفات Office (DOCX ، XLSX ، PPTX)): الحد الأقصى لطول السلسلة هو 8 ملايين حرف.
دليل الإدخال
- تنسيقات الملفات المدعومة: JPEG وPNG وPDF وTIFF.
- عدد الصفحات المدعومة: بالنسبة إلى PDF وTIFF، تتم معالجة ما يصل إلى 2,000 صفحة. لمشتركي المستوى المجاني، تتم معالجة أول صفحتين فقط.
- حجم الملف المدعوم: يجب أن يكون حجم الملف أقل من 50 ميغابايت، ويجب ألا تقل الأبعاد عن 50 × 50 بكسل و10,000 × 10,000 بكسل على الأغصال.
الشروع في العمل
يمكنك استخدام ذكاء المستندات لاستخراج بيانات مثل النص والجداول ورؤوس الجداول وعلامات التحديد ومعلومات البنية من المستندات. تحتاج إلى الموارد التالية:
- اشتراك Azure. يمكنك إنشاء حساب مجانا.
- مثيل Document Intelligence في مدخل Microsoft Azure. يمكنك استخدام مستوى التسعير المجاني (F0) لتجربة الخدمة. بعد نشر المورد، حدد Go to resource للحصول على المفتاح ونقطة النهاية.
بعد استرداد المفتاح ونقطة النهاية، يمكنك استخدام خيارات التطوير التالية لإنشاء تطبيقات التحليل الذكي للمستندات ونشرها.
ملاحظة
يتوفر Document Intelligence Studio مع واجهات برمجة التطبيقات v3.0 والإصدارات الأحدث.
واجهة برمجة تطبيقات REST
أداة تسمية نموذج تحليل معلومات المستند
انتقل إلى أداة تسمية عينة ذكاء المستندات.
في الصفحة الرئيسية لأداة العينة، حدد استخدام التخطيط للحصول على النص والجداول وعلامات التحديد.
في حقل نقطة نهاية خدمة Document Intelligence ، الصق نقطة النهاية التي حصلت عليها باستخدام اشتراك Document Intelligence.
في حقل المفتاح ، الصق المفتاح الذي حصلت عليه من مورد "التحليل الذكي للمستندات".
في حقل المصدر ، حدد عنوان URL من القائمة المنسدلة. يمكنك استخدام نموذج المستند:
حدد إحضار.
حدد Run Layout. تستدعي أداة تسمية نموذج التحليل الذكي للمستندات واجهة برمجة تطبيقات تحليل التخطيط لتحليل المستند.
عرض النتائج. راجع النص المستخرج المميز وعلامات التحديد المكتشفة والجداول المكتشفة.
يدعم Document Intelligence v2.1 الأدوات والتطبيقات والمكتبات التالية.
| ميزة | الموارد |
|---|---|
| واجهة برمجة تطبيقات التخطيط | • أداة • واجهة برمجة تطبيقات REST • SDK لمكتبة العميل • حاوية Docker لذكاء المستندات |
استخراج البيانات
يستخرج نموذج التخطيط العناصر الهيكلية من مستنداتك. يتم وصف العناصر الهيكلية هنا، وتوضح لك الإرشادات التالية كيفية استخراجها من إدخال المستند الخاص بك.
استخراج البيانات
يستخرج نموذج التخطيط العناصر الهيكلية من مستنداتك. يتم وصف العناصر الهيكلية هنا، وتوضح لك الإرشادات التالية كيفية استخراجها من إدخال المستند الخاص بك.
صفحة
المجموعة pages عبارة عن قائمة بالصفحات داخل المستند. يتم تمثيل كل صفحة بالتتابع داخل المستند وتتضمن زاوية الاتجاه التي تشير إلى ما إذا كانت الصفحة قد تم تدويرها والعرض والارتفاع (الأبعاد بالبكسل). يتم حساب وحدات الصفحة في إخراج النموذج كما هو موضح في الجدول التالي.
| تنسيق الملف | وحدة الصفحات المحسوبة | إجمالي الصفحات |
|---|---|---|
| الصور (JPEG/JPG، PNG، BMP، HEIF) | كل صورة = 1 وحدة صفحة. | إجمالي الصور |
| كل صفحة في ملف PDF = وحدة صفحة واحدة. | إجمالي الصفحات في ملف PDF | |
| TIFF | كل صورة في TIFF = وحدة صفحة واحدة. | إجمالي الصور في TIFF |
| كلمة (DOCX) | ما يصل إلى 3,000 حرف = وحدة صفحة واحدة. الصور المضمنة أو المرتبطة غير مدعومة. | إجمالي الصفحات التي يصل عددها إلى 3000 حرف لكل منها |
| إكسل (XLSX) | كل ورقة عمل = 1 وحدة صفحة. الصور المضمنة أو المرتبطة غير مدعومة. | إجمالي أوراق العمل |
| باور بوينت (PPTX) | كل شريحة = 1 وحدة صفحة. الصور المضمنة أو المرتبطة غير مدعومة. | إجمالي الشرائح |
| HTML | ما يصل إلى 3,000 حرف = وحدة صفحة واحدة. الصور المضمنة أو المرتبطة غير مدعومة. | إجمالي الصفحات التي يصل عددها إلى 3000 حرف لكل منها |
"pages": [
{
"pageNumber": 1,
"angle": 0,
"width": 915,
"height": 1190,
"unit": "pixel",
"words": [],
"lines": [],
"spans": []
}
]
- نموذج التعليمات البرمجية
-
إخراج
# Analyze pages.
for page in result.pages:
print(f"----Analyzing layout from page #{page.page_number}----")
print(
f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
)
استخراج الصفحات المحددة من المستندات
بالنسبة للمستندات الكبيرة متعددة الصفحات، استخدم معلمة pages الاستعلام للإشارة إلى أرقام صفحات معينة أو نطاقات صفحات لاستخراج النص.
الفقرة
يستخرج نموذج التخطيط جميع كتل النص المحددة في paragraphs المجموعة ككائن من المستوى الأعلى ضمن analyzeResults. يمثل كل إدخال في هذه المجموعة كتلة نصية ويتضمن النص المستخرج والإحداثيات contentالمحيطة polygon . تشير span المعلومات إلى جزء النص داخل خاصية المستوى content الأعلى التي تحتوي على النص الكامل من المستند.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
دور الفقرة
يستخرج اكتشاف كائن الصفحة الجديد المستند إلى التعلم الآلي الأدوار المنطقية مثل العناوين وعناوين الأقسام ورؤوس الصفحات وتذييلات الصفحات والمزيد. يقوم نموذج تخطيط "ذكاء المستندات" بتعيين كتل نصية معينة في المجموعة paragraphs مع دورها المتخصص أو نوعها الذي تنبأ به النموذج. من الأفضل استخدام أدوار الفقرات مع المستندات غير المنظمة للمساعدة في فهم تخطيط المحتوى المستخرج لتحليل دلالي أكثر ثراء. يتم دعم أدوار الفقرة التالية.
| الدور المتوقع | Description | أنواع الملفات المعتمدة |
|---|---|---|
title |
العناوين الرئيسية في الصفحة | PDF ، صورة ، DOCX ، PPTX ، XLSX ، HTML |
sectionHeading |
عنوان فرعي واحد أو أكثر على الصفحة | PDF ، صورة ، DOCX ، XLSX ، HTML |
footnote |
نص بالقرب من أسفل الصفحة | PDF, صورة |
pageHeader |
نص بالقرب من الحافة العلوية للصفحة | PDF, صورة, DOCX |
pageFooter |
نص بالقرب من الحافة السفلية للصفحة | PDF ، صورة ، DOCX ، PPTX ، HTML |
pageNumber |
رقم الصفحة | PDF, صورة |
{
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"role": "title",
"content": "NEWS TODAY"
},
{
"spans": [],
"boundingRegions": [],
"role": "sectionHeading",
"content": "Mirjam Nilsson"
}
]
}
النص والسطر والكلمة
يستخرج نموذج تخطيط المستند في Document Intelligence النص المطبوع والمكتوب بخط اليد كأسطر وكلمات. تتضمن المجموعة styles أي نمط مكتوب بخط اليد للأسطر إذا تم اكتشافه جنبا إلى جنب مع الامتدادات التي تشير إلى النص المقترن. تنطبق هذه الميزة على اللغات المعتمدة المكتوبة بخط اليد.
بالنسبة إلى Word وExcel وPowerPoint وHTML، يستخرج نموذج تخطيط Document Intelligence v4.0 2024-11-30 (GA) كل النص المضمن كما هو. يتم استخراج النصوص ككلمات وفقرات. الصور المضمنة غير مدعومة.
"words": [
{
"content": "While",
"polygon": [],
"confidence": 0.997,
"span": {}
},
],
"lines": [
{
"content": "While healthcare is still in the early stages of its Al journey, we",
"polygon": [],
"spans": [],
}
]
- نموذج التعليمات البرمجية
-
إخراج
# Analyze lines.
for line_idx, line in enumerate(page.lines):
words = line.get_words()
print(
f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
f"within bounding polygon '{format_polygon(line.polygon)}'"
)
# Analyze words.
for word in words:
print(
f"......Word '{word.content}' has a confidence of {word.confidence}"
)
نمط مكتوب بخط اليد
تتضمن الاستجابة تصنيف ما إذا كان كل سطر نصي بأسلوب خط اليد أم لا ، إلى جانب درجة الثقة. لمزيد من المعلومات، راجع دعم اللغة المكتوبة بخط اليد. يوضح المثال التالي مثالا لمقتطف JSON.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
إذا قمت بتمكين إمكانية الوظيفة الإضافية للخط/النمط، فستحصل أيضا على نتيجة الخط/النمط كجزء من الكائن styles .
علامة التحديد
يستخرج نموذج التخطيط أيضا علامات التحديد من المستندات. تظهر علامات التحديد المستخرجة pages داخل المجموعة لكل صفحة. وهي تتضمن الحدود polygonو confidenceو والتحديد state (selected/unselected). يتم تضمين تمثيل النص (أي :selected: و :unselected) أيضا كفهرس البداية (offset) ويشير length إلى خاصية المستوى content الأعلى التي تحتوي على النص الكامل من المستند.
{
"selectionMarks": [
{
"state": "unselected",
"polygon": [],
"confidence": 0.995,
"span": {
"offset": 1421,
"length": 12
}
}
]
}
- نموذج التعليمات البرمجية
-
إخراج
# Analyze selection marks.
for selection_mark in page.selection_marks:
print(
f"Selection mark is '{selection_mark.state}' within bounding polygon "
f"'{format_polygon(selection_mark.polygon)}' and has a confidence of {selection_mark.confidence}"
)
الجدول
يعد استخراج الجداول مطلبا أساسيا لمعالجة المستندات التي تحتوي على كميات كبيرة من البيانات التي يتم تنسيقها عادة كجداول. يستخرج نموذج التخطيط الجداول في pageResults قسم إخراج JSON. تتضمن معلومات الجدول المستخرجة عدد الأعمدة والصفوف وامتداد الصف وامتداد الأعمدة. يتم إخراج كل خلية بمضلعها المحيط جنبا إلى جنب مع معلومات ما إذا كانت المنطقة معترف بها أم columnHeader لا.
يدعم النموذج استخراج الجداول التي يتم تدويرها. تحتوي كل خلية جدول على فهرس الصفوف والأعمدة وإحداثيات المضلع المحيط. بالنسبة لنص الخلية، يقوم span النموذج بإخراج المعلومات التي تحتوي على فهرس البداية (offset). يقوم النموذج أيضا إخراج length داخل محتوى المستوى الأعلى الذي يحتوي على النص الكامل من المستند.
فيما يلي بعض العوامل التي يجب مراعاتها عند استخدام إمكانية استخراج بالة "ذكاء المستندات":
- هل البيانات التي تريد استخراجها مقدمة كجدول، هل بنية الجدول ذات معنى؟
- هل يمكن احتواء البيانات في شبكة ثنائية الأبعاد إذا لم تكن البيانات بتنسيق جدول؟
- هل تمتد الجداول على صفحات متعددة؟ إذا كان الأمر كذلك، لتجنب الاضطرار إلى تسمية جميع الصفحات، قم بتقسيم ملف PDF إلى صفحات قبل إرساله إلى ذكاء المستندات. بعد التحليل، قم بمعالجة الصفحات إلى جدول واحد بعد ذلك.
- راجع الحقول الجدولية إذا قمت بإنشاء نماذج مخصصة. تحتوي الجداول الديناميكية على عدد متغير من الصفوف لكل عمود. تحتوي الجداول الثابتة على عدد ثابت من الصفوف لكل عمود.
ملاحظة
تحليل الجدول غير مدعوم إذا كان ملف الإدخال XLSX. يدعم ذكاء المستندات v4.0 2024-11-30 (GA) المناطق المحيطة للأشكال والجداول التي تغطي المحتوى الأساسي فقط ويستبعد التسمية التوضيحية والحواشي السفلية المقترنة.
{
"tables": [
{
"rowCount": 9,
"columnCount": 4,
"cells": [
{
"kind": "columnHeader",
"rowIndex": 0,
"columnIndex": 0,
"columnSpan": 4,
"content": "(In millions, except earnings per share)",
"boundingRegions": [],
"spans": []
},
]
}
]
}
- نموذج التعليمات البرمجية
-
إخراج
# Analyze tables.
for table_idx, table in enumerate(result.tables):
print(
f"Table # {table_idx} has {table.row_count} rows and "
f"{table.column_count} columns"
)
for region in table.bounding_regions:
print(
f"Table # {table_idx} location on page: {region.page_number} is {format_polygon(region.polygon)}"
)
for cell in table.cells:
print(
f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'"
)
for region in cell.bounding_regions:
print(
f"...content on page {region.page_number} is within bounding polygon '{format_polygon(region.polygon)}'"
)
تعليقات توضيحية
يستخرج نموذج التخطيط التعليقات التوضيحية في المستندات، مثل الشيكات والتقاطعات. تتضمن الاستجابة نوع التعليق التوضيحي ، جنبا إلى جنب مع درجة الثقة والمضلع المحيط.
{
"pages": [
{
"annotations": [
{
"kind": "cross",
"polygon": [...],
"confidence": 1
}
]
}
]
}
إخراج ترتيب القراءة الطبيعية (اللاتينية فقط)
يمكنك تحديد الترتيب الذي يتم به إخراج أسطر النص باستخدام معلمة readingOrder الاستعلام. استخدم natural لإخراج ترتيب قراءة أكثر ملاءمة للإنسان، كما هو موضح في المثال التالي. هذه الميزة مدعومة فقط للغات اللاتينية.
تحديد رقم الصفحة أو النطاق لاستخراج النص
بالنسبة للمستندات الكبيرة متعددة الصفحات، استخدم معلمة pages الاستعلام للإشارة إلى أرقام صفحات معينة أو نطاقات صفحات لاستخراج النص. يوضح المثال التالي مستندا يحتوي على 10 صفحات، مع نص مستخرج لكلتا الحالتين، وجميع الصفحات (1-10)، والصفحات المحددة (3-6).
عملية الحصول على تحليل نتيجة التخطيط
الخطوة الثانية هي استدعاء العملية Get Analyze Layout Result . تأخذ هذه العملية كإدخال معرف النتيجة الذي أنشأته Analyze Layout العملية. تقوم بإرجاع استجابة JSON التي تحتوي على حقل حالة بالقيم المحتملة التالية.
| الحقل | النوع | القيم المحتملة |
|---|---|---|
| حالة | خيط |
notStarted: لم يتم بدء عملية التحليل.running: عملية التحليل قيد التقدم.failed: فشلت عملية التحليل.succeeded: نجحت عملية التحليل. |
قم باستدعاء هذه العملية بشكل متكرر حتى تقوم بإرجاع succeeded القيمة. لتجنب تجاوز معدل الطلبات في الثانية، استخدم فاصلا زمنيا من ثلاث إلى خمس ثوان.
عندما يحتوي حقل الحالة على succeeded القيمة، تتضمن استجابة JSON التخطيط والنص والجداول وعلامات التحديد المستخرجة. تتضمن البيانات المستخرجة أسطر وكلمات نصية مستخرجة ، ومربعات محيطة ، ومظهر النص مع إشارة مكتوبة بخط اليد ، والجداول ، وعلامات التحديد مع الإشارة إلى التحديد / غير المحدد.
التصنيف المكتوب بخط اليد للخطوط النصية (اللاتينية فقط)
تتضمن الاستجابة تصنيف ما إذا كان كل سطر نصي بأسلوب مكتوب بخط اليد أم لا ، إلى جانب درجة الثقة. هذه الميزة مدعومة فقط للغات اللاتينية. يوضح المثال التالي التصنيف المكتوب بخط اليد للنص في الصورة.
عينة إخراج JSON
الاستجابة للعملية Get Analyze Layout Result هي تمثيل منظم للمستند مع جميع المعلومات المستخرجة.
راجع نموذج ملف المستندومخرجات تخطيط نموذج الإخراج المنظم.
يحتوي إخراج JSON على جزأين:
- تحتوي العقدة
readResultsعلى كل النص المعترف به وعلامة التحديد. التدرج الهرمي للعرض التقديمي للنص هو الصفحة، ثم السطر، ثم الكلمات الفردية. - تحتوي العقدة
pageResultsعلى الجداول والخلايا المستخرجة مع مربعاتها المحيطة والثقة والإشارة إلى الأسطر والكلمات فيreadResultsالحقل.
مثال على الإخراج
النص
تستخرج واجهة برمجة تطبيقات التخطيط النص من المستندات والصور بزوايا وألوان نصية متعددة. يقبل صور المستندات والفاكسات والنصوص المطبوعة و / أو المكتوبة بخط اليد (الإنجليزية فقط) والأوضاع المختلطة. يتم استخراج النص بالمعلومات المتوفرة على الأسطر والكلمات ومربعات الإحاطة ودرجات الثقة والنمط (مكتوب بخط اليد أو غير ذلك). يتم تضمين جميع المعلومات النصية في readResults قسم من إخراج JSON.
الجداول ذات الرؤوس
تستخرج واجهة برمجة تطبيقات التخطيط الجداول في pageResults قسم إخراج JSON. يمكنك مسح المستندات ضوئيا أو تصويرها أو رقمنتها. يمكن أن تكون الجداول معقدة مع الخلايا أو الأعمدة المدمجة، مع حدود أو بدونها، وبزوايا فردية.
تتضمن معلومات الجدول المستخرجة عدد الأعمدة والصفوف وامتداد الصف وامتداد الأعمدة. يتم إخراج كل خلية بمربع الإحاطة الخاص بها مع ما إذا كان يتم التعرف على المنطقة كجزء من رأس أم لا. يمكن أن تمتد خلايا الرأس التي تنبأ بها النموذج إلى صفوف متعددة وليست بالضرورة الصفوف الأولى في الجدول. كما أنها تعمل مع الجداول التي تم تدويرها. تتضمن كل خلية جدول أيضا النص الكامل مع إشارات إلى الكلمات الفردية في readResults القسم.
علامات التحديد (المستندات)
تستخرج واجهة برمجة تطبيقات التخطيط أيضا علامات التحديد من المستندات. تتضمن علامات التحديد المستخرجة المربع المحيط والثقة والحالة (محدد/غير محدد). يتم استخراج معلومات علامة التحديد في readResults قسم من إخراج JSON.
دليل الترحيل
- لمعرفة كيفية استخدام الإصدار v3.1 في التطبيقات ومهام سير العمل، اتبع الخطوات الواردة في دليل ترحيل Document Intelligence v3.1.
محتوى ذو صلة
- تعرف على كيفية معالجة النماذج والمستندات الخاصة بك باستخدام Document Intelligence Studio.
- قم بإنهاء التشغيل السريع لذكاء المستندات، وقم بإنشاء تطبيق معالجة المستندات بلغة التطوير التي تختارها.
- تعرف على كيفية معالجة النماذج والمستندات الخاصة بك باستخدام أداة تسمية عينة ذكاء المستندات.
- قم بإنهاء التشغيل السريع لذكاء المستندات، وقم بإنشاء تطبيق معالجة المستندات بلغة التطوير التي تختارها.