ملاحظة
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
ينطبق هذا المحتوى على:v4.0 (GA) | الإصدارات السابقة:
v3.1 (GA)
v3.0 (GA)
v2.1 (GA)
نموذج تخطيط ذكاء المستند هو واجهة برمجة تطبيقات متقدمة لتحليل المستندات المستندة إلى التعلم الآلي متوفرة في سحابة Document Intelligence. يمكنك من أخذ المستندات بتنسيقات مختلفة وإرجاع تمثيلات البيانات المنظمة للمستندات. فهو يجمع بين إصدار محسن من قدرات التعرف البصري على الحروف (OCR) القوية مع نماذج التعلم العميق لاستخراج النص والجداول وعلامات التحديد وبنية المستند.
تحليل تخطيط بنية المستند
تحليل تخطيط بنية المستند هو عملية تحليل مستند لاستخراج المناطق ذات الاهتمام والعلاقات بينهما. الهدف هو استخراج النص والعناصر الهيكلية من الصفحة لبناء نماذج فهم دلالي أفضل. يوجد نوعان من الأدوار في تخطيط المستند:
- الأدوار الهندسية: النص والجداول والأشكال وعلامات التحديد هي أمثلة على الأدوار الهندسية.
- الأدوار المنطقية: العناوين والعناوين والتذييلات هي أمثلة للأدوار المنطقية للنصوص.
يوضح الرسم التوضيحي التالي المكونات النموذجية في صورة لصفحة عينة.
خيارات التطوير
يدعم Document Intelligence v4.0: 2024-11-30 (GA) الأدوات والتطبيقات والمكتبات التالية:
ميزة | الموارد | معرف النموذج |
---|---|---|
نموذج التخطيط | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
تخطيط مسبق الإنشاء |
اللغات المدعومة
راجع دعم اللغة — نماذج تحليل المستندات للحصول على قائمة كاملة باللغات المدعومة.
أنواع الملفات المعتمدة
يدعم نموذج تخطيط Document Intelligence v4.0: 2024-11-30 (GA) تنسيقات الملفات التالية:
نموذج | الصورة: JPEG/JPG ، PNG ، BMP ، ، TIFF HEIF |
Microsoft Office: Word ( DOCX )، Excel (XLSX )، PowerPoint (PPTX )، HTML |
|
---|---|---|---|
تخطيط | ✔ | ✔ | ✔ |
متطلبات الإدخال
للحصول على أفضل النتائج، قم بتوفير صورة واحدة واضحة أو فحص عالي الجودة لكل مستند.
بالنسبة إلى PDF وTIFF، يمكن معالجة ما يصل إلى 2000 صفحة (مع اشتراك الطبقة المجانية، تتم معالجة أول صفحتين فقط).
إذا كانت ملفات PDF مؤمنة بكلمة مرور، فيجب إزالة التأمين قبل الإرسال.
حجم الملف لتحليل المستندات هو 500 ميغابايت للطبقة المدفوعة (S0) وMB
4
مجانا (F0).يجب أن تتراوح أبعاد الصورة بين 50 بكسل × 50 بكسل و10000 بكسل × 10000 بكسل.
الحد الأدنى لارتفاع النص المراد استخراجه هو 12 بكسل لصورة 1024 × 768 بكسل. يتوافق هذا البعد مع نص النقطة تقريبا
8
عند 150 نقطة لكل بوصة (DPI).بالنسبة لتدريب النموذج المخصص، الحد الأقصى لعدد الصفحات لبيانات التدريب هو 500 لنموذج القالب المخصص و50000 للنموذج العصبي المخصص.
لتدريب نموذج الاستخراج المخصص، يبلغ الحجم الإجمالي لبيانات التدريب 50 ميغابايت لنموذج القالب وGB
1
للنموذج العصبي.بالنسبة لتدريب نموذج التصنيف المخصص، يكون الحجم الإجمالي لبيانات
1
التدريب GB بحد أقصى 10000 صفحة. بالنسبة إلى2024-11-30
(GA)، يكون الحجم الإجمالي لبيانات2
التدريب GB بحد أقصى 10000 صفحة.
لمزيد من المعلومات حول استخدام النموذج والحصص النسبية وحدود الخدمة، راجعحدود الخدمة.
بدء استخدام نموذج التخطيط
تعرف على كيفية استخراج البيانات، بما في ذلك النص والجداول ورؤوس الجداول وعلامات التحديد ومعلومات البنية من المستندات باستخدام Document Intelligence. تحتاج إلى الموارد التالية:
اشتراك Azure - يمكنك إنشاء اشتراك مجانا.
مثيل Document Intelligence في مدخل Microsoft Azure. يمكنك استخدام مستوى التسعير المجاني (
F0
) لتجربة الخدمة. بعد نشر المورد، حدد Go to resource للحصول على المفتاح ونقطة النهاية.
بعد استرداد المفتاح ونقطة النهاية، استخدم خيارات التطوير التالية لإنشاء تطبيقات تحليل معلومات المستند ونشرها:
استخراج البيانات
يستخرج نموذج التخطيط العناصر الهيكلية من مستنداتك. فيما يلي أوصاف لهذه العناصر الهيكلية مع إرشادات حول كيفية استخراجها من إدخال المستند:
- الصفحات
- الفقرات
- النص والخطوط والكلمات
- علامات التحديد
- المناضد
- استجابة الإخراج إلى markdown
- الارقام
- مقاطع
قم بتشغيل نموذج تحليل مستند التخطيط داخل Document Intelligence Studio، ثم انتقل إلى علامة تبويب النتائج والوصول إلى إخراج JSON الكامل.
الصفحات
مجموعة الصفحات هي قائمة بالصفحات داخل المستند. يتم تمثيل كل صفحة بشكل تسلسلي داخل المستند وتتضمن زاوية الاتجاه التي تشير إلى ما إذا كان يتم تدوير الصفحة والعرض والارتفاع (الأبعاد بالبكسل). يتم حساب وحدات الصفحة في إخراج النموذج كما هو موضح:
تنسيق الملف | وحدة الصفحة المحسوبة | إجمالي الصفحات |
---|---|---|
الصور (JPEG/JPG، PNG، BMP، HEIF) | كل صورة = وحدة صفحة واحدة | إجمالي الصور |
كل صفحة في PDF = وحدة صفحة واحدة | إجمالي الصفحات في ملف PDF | |
TIFF | كل صورة في TIFF = وحدة صفحة واحدة | إجمالي الصور في TIFF |
Word (DOCX) | ما يصل إلى 3000 حرف = وحدة صفحة واحدة أو صور مضمنة أو مرتبطة غير مدعومة | إجمالي الصفحات التي يصل عددها إلى 3000 حرف لكل منها |
Excel (XLSX) | كل ورقة عمل = وحدة صفحة واحدة أو صور مضمنة أو مرتبطة غير معتمدة | إجمالي أوراق العمل |
PowerPoint (PPTX) | كل شريحة = وحدة صفحة واحدة أو صور مضمنة أو مرتبطة غير معتمدة | إجمالي الشرائح |
HTML | ما يصل إلى 3000 حرف = وحدة صفحة واحدة أو صور مضمنة أو مرتبطة غير مدعومة | إجمالي الصفحات التي يصل عددها إلى 3000 حرف لكل منها |
- نموذج التعليمات البرمجية
-
إخراج
# Analyze pages.
for page in result.pages:
print(f"----Analyzing layout from page #{page.page_number}----")
print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")
استخراج الصفحات المحددة
بالنسبة إلى المستندات الكبيرة متعددة الصفحات، استخدم معلمة pages
الاستعلام للإشارة إلى أرقام صفحات أو نطاقات صفحات معينة لاستخراج النص.
الفقرات
يستخرج نموذج التخطيط كافة كتل النص المحددة في paragraphs
المجموعة ككائن المستوى الأعلى ضمن analyzeResults
. يمثل كل إدخال في هذه المجموعة كتلة نص و.. /يتضمن النص المستخرج كإحداثياتcontent
الإحاطة polygon
.
span
تشير المعلومات إلى جزء النص ضمن خاصية المستوى content
الأعلى التي تحتوي على النص الكامل من المستند.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
أدوار الفقرة
يستخرج الكشف الجديد عن كائن الصفحة المستند إلى التعلم الآلي الأدوار المنطقية مثل العناوين وعناوين المقاطع ورؤوس الصفحات وتذييلات الصفحات والمزيد. يعين نموذج تخطيط المعلومات المستندية كتل نصية معينة في paragraphs
المجموعة مع دورها المتخصص أو النوع الذي يتوقعه النموذج. من الأفضل استخدام أدوار الفقرات مع المستندات غير المنظمة للمساعدة في فهم تخطيط المحتوى المستخرج لتحليل دلالي أكثر ثراء. يتم اعتماد أدوار الفقرة التالية:
الدور المتوقع | الوصف | أنواع الملفات المعتمدة |
---|---|---|
title |
العناوين الرئيسية في الصفحة | pdf، صورة، docx، pptx، xlsx، html |
sectionHeading |
عنوان فرعي واحد أو أكثر على الصفحة | pdf، صورة، docx، xlsx، html |
footnote |
نص بالقرب من أسفل الصفحة | pdf، صورة |
pageHeader |
نص بالقرب من الحافة العلوية للصفحة | pdf، صورة، مستند |
pageFooter |
نص بالقرب من الحافة السفلية للصفحة | pdf، صورة، docx، pptx، html |
pageNumber |
رقم الصفحة | pdf، صورة |
{
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"role": "title",
"content": "NEWS TODAY"
},
{
"spans": [],
"boundingRegions": [],
"role": "sectionHeading",
"content": "Mirjam Nilsson"
}
]
}
النص والخطوط والكلمات
يستخرج نموذج تخطيط المستند في Document Intelligence نص النمط المطبوع والمكتوب بخط اليد ك lines
و words
.
styles
تتضمن المجموعة أي نمط مكتوب بخط اليد للخطوط إذا تم اكتشافه مع الامتدادات التي تشير إلى النص المقترن. تنطبق هذه الميزة على اللغات المعتمدة المكتوبة بخط اليد.
بالنسبة إلى Microsoft Word وExcel وPowerPoint وHTML، يقوم نموذج تخطيط Document Intelligence v4.0 2024-11-30
(GA) باستخراج النص المضمن كما هو. يتم استخراج النصوص ككلمات وفقرات. الصور المضمنة غير مدعومة.
- نموذج التعليمات البرمجية
-
إخراج
# Analyze lines.
if page.lines:
for line_idx, line in enumerate(page.lines):
words = get_words(page, line)
print(
f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
f"within bounding polygon '{line.polygon}'"
)
# Analyze words.
for word in words:
print(f"......Word '{word.content}' has a confidence of {word.confidence}")
نمط مكتوب بخط اليد لخطوط النص
الاستجابة .. /يتضمن تصنيف ما إذا كان كل سطر نص بنمط الكتابة اليدوية أم لا، إلى جانب درجة الثقة. لمزيد من المعلومات. راجع دعم اللغة المكتوبة بخط اليد. يوضح المثال التالي مثالا لمقتطف JSON.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
إذا قمت بتمكين إمكانية إضافة الخط/النمط، فستحصل أيضا على نتيجة الخط/النمط كجزء من styles
العنصر.
علامات التحديد
يستخرج نموذج التخطيط أيضا علامات التحديد من المستندات. تظهر علامات التحديد المستخرجة pages
داخل المجموعة لكل صفحة. وهي تتضمن الحدود polygon
و confidence
و والتحديد state
(selected/unselected
). يتم أيضا تضمين تمثيل النص (أي و:unselected
:selected:
) كفهرس البداية (offset
) ويشير length
إلى خاصية المستوى content
الأعلى التي تحتوي على النص الكامل من المستند.
- نموذج التعليمات البرمجية
-
إخراج
# Analyze selection marks.
if page.selection_marks:
for selection_mark in page.selection_marks:
print(
f"Selection mark is '{selection_mark.state}' within bounding polygon "
f"'{selection_mark.polygon}' and has a confidence of {selection_mark.confidence}"
)
المناضد
استخراج الجداول هو مطلب رئيسي لمعالجة المستندات التي تحتوي على كميات كبيرة من البيانات المنسقة عادة كجداول. يستخرج نموذج التخطيط الجداول في pageResults
قسم من إخراج JSON. معلومات الجدول المستخرجة .. /يتضمن عدد الأعمدة والصفوف وامتداد الصف وامتداد الأعمدة. يتم إخراج كل خلية ذات المضلع المحيط بها مع معلومات حول ما إذا كان يتم التعرف على المنطقة على columnHeader
أنها أم لا. يدعم النموذج استخراج الجداول التي يتم تدويرها. تحتوي كل خلية جدول على فهرس الصفوف والأعمدة وإحداثيات المضلع المحيط. بالنسبة إلى نص الخلية، يقوم النموذج لإخراج المعلومات التي span
تحتوي على فهرس البداية (offset
). يقوم النموذج أيضا إخراج length
داخل محتوى المستوى الأعلى الذي يحتوي على النص الكامل من المستند.
فيما يلي بعض العوامل التي يجب مراعاتها عند استخدام إمكانية استخراج البالة Document Intelligence:
هل البيانات التي تريد استخراجها مقدمة كجدول، هل بنية الجدول ذات معنى؟
هل يمكن احتواء البيانات في شبكة ثنائية الأبعاد إذا لم تكن البيانات بتنسيق جدول؟
هل تمتد الجداول على صفحات متعددة؟ إذا كان الأمر كذلك، لتجنب الاضطرار إلى تسمية جميع الصفحات، قم بتقسيم ملف PDF إلى صفحات قبل إرساله إلى Document Intelligence. بعد التحليل، قم بمعالجة الصفحات إلى جدول واحد بعد ذلك.
راجع الحقول الجدولية إذا كنت تقوم بإنشاء نماذج مخصصة. تحتوي الجداول الديناميكية على عدد متغير من الصفوف لكل عمود. تحتوي الجداول الثابتة على عدد ثابت من الصفوف لكل عمود.
ملاحظة
- تحليل الجدول غير مدعوم إذا كان ملف الإدخال XLSX.
- بالنسبة إلى
2024-11-30
(GA)، تغطي المناطق الحدودية للأرقام والجداول المحتوى الأساسي فقط وتستبعد التسميات التوضيحية والحواشي السفلية المقترنة.
- نموذج التعليمات البرمجية
-
إخراج
if result.tables:
for table_idx, table in enumerate(result.tables):
print(f"Table # {table_idx} has {table.row_count} rows and " f"{table.column_count} columns")
if table.bounding_regions:
for region in table.bounding_regions:
print(f"Table # {table_idx} location on page: {region.page_number} is {region.polygon}")
# Analyze cells.
for cell in table.cells:
print(f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'")
if cell.bounding_regions:
for region in cell.bounding_regions:
print(f"...content on page {region.page_number} is within bounding polygon '{region.polygon}'")
استجابة الإخراج لتنسيق markdown
يمكن لواجهة برمجة تطبيقات التخطيط إخراج النص المستخرج بتنسيق markdown.
outputContentFormat=markdown
استخدم لتحديد تنسيق الإخراج في markdown. يتم إخراج محتوى markdown كجزء من content
القسم.
ملاحظة
بالنسبة إلى الإصدار 4.0 2024-11-30
(GA)، يتم تغيير تمثيل الجداول إلى جداول HTML لتمكين عرض الخلايا المدمجة، والرؤوس متعددة الصفوف، وما إلى ذلك. تغيير آخر ذي صلة هو استخدام أحرف ☒ خانة الاختيار Unicode وعلامات ☐ التحديد بدلا من :selected:
و :unselected:
. يعني هذا التحديث أن محتوى حقول علامات التحديد يحتوي على :selected:
الرغم من أن امتداداتها تشير إلى أحرف Unicode في نطاق المستوى الأعلى. راجع تنسيق إخراج Markdown للحصول على تعريف كامل لعناصر Markdown.
- نموذج التعليمات البرمجية
-
إخراج
document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
"prebuilt-layout",
AnalyzeDocumentRequest(url_source=url),
output_content_format=ContentFormat.MARKDOWN,
)
الارقام
تلعب الأرقام (المخططات والصور) في الوثائق دورا حاسما في استكمال وتعزيز المحتوى النصي، وتوفير تمثيلات مرئية تساعد في فهم المعلومات المعقدة. يحتوي كائن الرسوم التوضيحية الذي تم اكتشافه بواسطة نموذج التخطيط على خصائص رئيسية مثل boundingRegions
(المواقع المكانية للرسم التوضيحي على صفحات المستند، بما في ذلك رقم الصفحة وإحداثيات المضلع التي تحدد حدود الرسم التوضيحي)، spans
(تفاصيل تمتد النص المتعلقة بالرسم التوضيحي، وتحديد إزاحاتها وأطوالها داخل نص المستند. يساعد هذا الاتصال في إقران الشكل بالسياق النصي ذي الصلة)، elements
(معرفات العناصر النصية أو الفقرات داخل المستند التي ترتبط بالشكل التوضيحي أو تصفه) وإذا caption
كان هناك أي منها.
عند تحديد output=figures أثناء عملية التحليل الأولية، تنشئ الخدمة صورا مقتصة لجميع الأرقام المكتشفة التي يمكن الوصول إليها عبر /analyeResults/{resultId}/figures/{figureId}
.
FigureId
يتم تضمينه في كل كائن شكلي، باتباع اصطلاح غير مسجل حيث {pageNumber}.{figureIndex}
figureIndex
تتم إعادة التعيين إلى واحد لكل صفحة.
ملاحظة
بالنسبة إلى الإصدار 4.0 2024-11-30
(GA)، تغطي المناطق الحدودية للأرقام والجداول المحتوى الأساسي فقط وتستبعد التسميات التوضيحية والحواشي السفلية المقترنة.
- نموذج التعليمات البرمجية
-
إخراج
# Analyze figures.
if result.figures:
for figures_idx,figures in enumerate(result.figures):
print(f"Figure # {figures_idx} has the following spans:{figures.spans}")
for region in figures.bounding_regions:
print(f"Figure # {figures_idx} location on page:{region.page_number} is within bounding polygon '{region.polygon}'")
الأقسام
يعد تحليل بنية المستندات الهرمية محوريا في تنظيم المستندات الشاملة وإدراكها ومعالجتها. يعد هذا النهج حيويا لتقسيم الوثائق الطويلة دلاليا لتعزيز الفهم وتسهيل التنقل وتحسين استرداد المعلومات. إن ظهور الجيل المعزز باسترداد (RAG) في الذكاء الاصطناعي إنشاء المستندات يؤكد أهمية تحليل هيكل المستند الهرمي. يدعم نموذج التخطيط المقاطع والأقسام الفرعية في الإخراج، والذي يحدد علاقة المقاطع والعنصر داخل كل مقطع. يتم الاحتفاظ بالبنية الهرمية في elements
كل قسم. يمكنك استخدام استجابة الإخراج لتنسيق markdown للحصول على المقاطع والأقسام الفرعية بسهولة في markdown.
- نموذج التعليمات البرمجية
-
إخراج
document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
"prebuilt-layout",
AnalyzeDocumentRequest(url_source=url),
output_content_format=ContentFormat.MARKDOWN,
)
ينطبق هذا المحتوى على:v2.1 | أحدث إصدار:
v4.0 (GA)
نموذج تخطيط ذكاء المستند هو واجهة برمجة تطبيقات متقدمة لتحليل المستندات المستندة إلى التعلم الآلي متوفرة في سحابة Document Intelligence. يمكنك من أخذ المستندات بتنسيقات مختلفة وإرجاع تمثيلات البيانات المنظمة للمستندات. فهو يجمع بين إصدار محسن من قدرات التعرف البصري على الحروف (OCR) القوية مع نماذج التعلم العميق لاستخراج النص والجداول وعلامات التحديد وبنية المستند.
تحليل تخطيط المستند
تحليل تخطيط بنية المستند هو عملية تحليل مستند لاستخراج المناطق ذات الاهتمام والعلاقات بينهما. الهدف هو استخراج النص والعناصر الهيكلية من الصفحة لبناء نماذج فهم دلالي أفضل. يوجد نوعان من الأدوار في تخطيط المستند:
- الأدوار الهندسية: النص والجداول والأشكال وعلامات التحديد هي أمثلة على الأدوار الهندسية.
- الأدوار المنطقية: العناوين والعناوين والتذييلات هي أمثلة للأدوار المنطقية للنصوص.
يوضح الرسم التوضيحي التالي المكونات النموذجية في صورة لصفحة عينة.
اللغات واللغات المدعومة
راجع صفحة نماذج تحليل اللغة للحصول على قائمة كاملة باللغات المدعومة.
يدعم Document Intelligence v2.1 الأدوات والتطبيقات والمكتبات التالية:
ميزة | الموارد |
---|---|
نموذج التخطيط | • أداة تسمية ذكاء المستند• REST API • مكتبة العميل SDK • حاوية Docker لذكاء المستند |
إرشادات الإدخال
تنسيقات الملفات المدعومة:
نموذج | الصورة: JPEG/JPG ، PNG ، BMP ، ، TIFF HEIF |
Microsoft Office: Word ( DOCX )، Excel (XLSX )، PowerPoint (PPTX )، HTML |
|
---|---|---|---|
قراءة | ✔ | ✔ | ✔ |
تخطيط | ✔ | ✔ | |
مستند عام | ✔ | ✔ | |
تم الإنشاء مسبقا | ✔ | ✔ | |
استخراج مخصص | ✔ | ✔ | |
تصنيف مخصص | ✔ | ✔ | ✔ |
للحصول على أفضل النتائج، قم بتوفير صورة واحدة واضحة أو فحص عالي الجودة لكل مستند.
بالنسبة إلى PDF وTIFF، يمكن معالجة ما يصل إلى 2000 صفحة (مع اشتراك الطبقة المجانية، تتم معالجة أول صفحتين فقط).
حجم الملف لتحليل المستندات هو 500 ميغابايت للطبقة المدفوعة (S0) وMB
4
مجانا (F0).يجب أن تتراوح أبعاد الصورة بين 50 بكسل × 50 بكسل و10000 بكسل × 10000 بكسل.
إذا كانت ملفات PDF مؤمنة بكلمة مرور، فيجب إزالة التأمين قبل الإرسال.
الحد الأدنى لارتفاع النص المراد استخراجه هو 12 بكسل لصورة 1024 × 768 بكسل. يتوافق هذا البعد مع نص النقطة تقريبا
8
عند 150 نقطة لكل بوصة (DPI).بالنسبة لتدريب النموذج المخصص، الحد الأقصى لعدد الصفحات لبيانات التدريب هو 500 لنموذج القالب المخصص و50000 للنموذج العصبي المخصص.
لتدريب نموذج الاستخراج المخصص، يبلغ الحجم الإجمالي لبيانات التدريب 50 ميغابايت لنموذج القالب وGB
1
للنموذج العصبي.بالنسبة لتدريب نموذج التصنيف المخصص، يكون الحجم الإجمالي لبيانات
1
التدريب GB بحد أقصى 10000 صفحة. بالنسبة إلى2024-11-30
(GA)، يكون الحجم الإجمالي لبيانات2
التدريب GB بحد أقصى 10000 صفحة.
دليل الإدخال
- تنسيقات الملفات المدعومة: JPEG وPNG وPDF وTIFF.
- عدد الصفحات المدعومة: بالنسبة إلى PDF وTIFF، تتم معالجة ما يصل إلى 2000 صفحة. لمشتركي المستوى المجاني، تتم معالجة أول صفحتين فقط.
- حجم الملف المدعوم: يجب أن يكون حجم الملف أقل من 50 ميغابايت وأبعاد 50 × 50 بكسل على الأقل و10000 × 10000 بكسل على الأكثر.
الشروع في العمل
تعرف على كيفية استخراج البيانات، بما في ذلك النص والجداول ورؤوس الجداول وعلامات التحديد ومعلومات البنية من المستندات باستخدام Document Intelligence. تحتاج إلى الموارد التالية:
اشتراك Azure - يمكنك إنشاء اشتراك مجانا.
مثيل Document Intelligence في مدخل Microsoft Azure. يمكنك استخدام مستوى التسعير المجاني (
F0
) لتجربة الخدمة. بعد نشر المورد، حدد Go to resource للحصول على المفتاح ونقطة النهاية.
بعد استرداد المفتاح ونقطة النهاية، يمكنك استخدام خيارات التطوير التالية لإنشاء تطبيقات Document Intelligence وتوزيعها:
ملاحظة
يتوفر Document Intelligence Studio مع واجهات برمجة التطبيقات v3.0 والإصدارات الأحدث.
واجهة برمجة تطبيقات REST
أداة تسمية نموذج تحليل معلومات المستند
انتقل إلى أداة نموذج Document Intelligence.
في الصفحة الرئيسية لأداة العينة، حدد استخدام التخطيط للحصول على النص والجداول وعلامات التحديد.
في حقل نقطة نهاية خدمة Document Intelligence ، الصق نقطة النهاية التي حصلت عليها باستخدام اشتراك Document Intelligence.
في حقل المفتاح ، الصق المفتاح الذي حصلت عليه من مورد Document Intelligence.
في حقل المصدر ، حدد URL من القائمة المنسدلة يمكنك استخدام نموذج المستند:
حدد الزر إحضار .
حدد Run Layout. تستدعي
Analyze Layout
أداة تسمية نموذج تحليل معلومات المستند واجهة برمجة التطبيقات لتحليل المستند.عرض النتائج - راجع النص المميز المستخرج وعلامات التحديد المكتشفة والجداول المكتشفة.
يدعم Document Intelligence v2.1 الأدوات والتطبيقات والمكتبات التالية:
ميزة | الموارد |
---|---|
واجهة برمجة تطبيقات التخطيط | • أداة تسمية ذكاء المستند• REST API • مكتبة العميل SDK • حاوية Docker لذكاء المستند |
استخراج البيانات
يستخرج نموذج التخطيط العناصر الهيكلية من مستنداتك. فيما يلي أوصاف لهذه العناصر الهيكلية مع إرشادات حول كيفية استخراجها من إدخال المستند:
استخراج البيانات
يستخرج نموذج التخطيط العناصر الهيكلية من مستنداتك. فيما يلي أوصاف لهذه العناصر الهيكلية مع إرشادات حول كيفية استخراجها من إدخال المستند:
صفحة
مجموعة الصفحات هي قائمة بالصفحات داخل المستند. يتم تمثيل كل صفحة بشكل تسلسلي داخل المستند و.. /يتضمن زاوية الاتجاه التي تشير إلى ما إذا كانت الصفحة قد استدارت والعرض والارتفاع (الأبعاد بالبكسل). يتم حساب وحدات الصفحة في إخراج النموذج كما هو موضح:
تنسيق الملف | وحدة الصفحة المحسوبة | إجمالي الصفحات |
---|---|---|
الصور (JPEG/JPG، PNG، BMP، HEIF) | كل صورة = وحدة صفحة واحدة | إجمالي الصور |
كل صفحة في PDF = وحدة صفحة واحدة | إجمالي الصفحات في ملف PDF | |
TIFF | كل صورة في TIFF = وحدة صفحة واحدة | إجمالي الصور في TIFF |
Word (DOCX) | ما يصل إلى 3000 حرف = وحدة صفحة واحدة أو صور مضمنة أو مرتبطة غير مدعومة | إجمالي الصفحات التي يصل عددها إلى 3000 حرف لكل منها |
Excel (XLSX) | كل ورقة عمل = وحدة صفحة واحدة أو صور مضمنة أو مرتبطة غير معتمدة | إجمالي أوراق العمل |
PowerPoint (PPTX) | كل شريحة = وحدة صفحة واحدة أو صور مضمنة أو مرتبطة غير معتمدة | إجمالي الشرائح |
HTML | ما يصل إلى 3000 حرف = وحدة صفحة واحدة أو صور مضمنة أو مرتبطة غير مدعومة | إجمالي الصفحات التي يصل عددها إلى 3000 حرف لكل منها |
"pages": [
{
"pageNumber": 1,
"angle": 0,
"width": 915,
"height": 1190,
"unit": "pixel",
"words": [],
"lines": [],
"spans": []
}
]
- نموذج التعليمات البرمجية
-
إخراج
# Analyze pages.
for page in result.pages:
print(f"----Analyzing layout from page #{page.page_number}----")
print(
f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
)
استخراج الصفحات المحددة من المستندات
بالنسبة إلى المستندات الكبيرة متعددة الصفحات، استخدم معلمة pages
الاستعلام للإشارة إلى أرقام صفحات أو نطاقات صفحات معينة لاستخراج النص.
الفقرة
يستخرج نموذج التخطيط كافة كتل النص المحددة في paragraphs
المجموعة ككائن المستوى الأعلى ضمن analyzeResults
. يمثل كل إدخال في هذه المجموعة كتلة نص و.. /يتضمن النص المستخرج كإحداثياتcontent
الإحاطة polygon
.
span
تشير المعلومات إلى جزء النص ضمن خاصية المستوى content
الأعلى التي تحتوي على النص الكامل من المستند.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
دور الفقرة
يستخرج الكشف الجديد عن كائن الصفحة المستند إلى التعلم الآلي الأدوار المنطقية مثل العناوين وعناوين المقاطع ورؤوس الصفحات وتذييلات الصفحات والمزيد. يعين نموذج تخطيط المعلومات المستندية كتل نصية معينة في paragraphs
المجموعة مع دورها المتخصص أو النوع الذي يتوقعه النموذج. من الأفضل استخدام أدوار الفقرات مع المستندات غير المنظمة للمساعدة في فهم تخطيط المحتوى المستخرج لتحليل دلالي أكثر ثراء. يتم اعتماد أدوار الفقرة التالية:
الدور المتوقع | الوصف | أنواع الملفات المعتمدة |
---|---|---|
title |
العناوين الرئيسية في الصفحة | pdf، صورة، docx، pptx، xlsx، html |
sectionHeading |
عنوان فرعي واحد أو أكثر على الصفحة | pdf، صورة، docx، xlsx، html |
footnote |
نص بالقرب من أسفل الصفحة | pdf، صورة |
pageHeader |
نص بالقرب من الحافة العلوية للصفحة | pdf، صورة، مستند |
pageFooter |
نص بالقرب من الحافة السفلية للصفحة | pdf، صورة، docx، pptx، html |
pageNumber |
رقم الصفحة | pdf، صورة |
{
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"role": "title",
"content": "NEWS TODAY"
},
{
"spans": [],
"boundingRegions": [],
"role": "sectionHeading",
"content": "Mirjam Nilsson"
}
]
}
النص والسطر والكلمة
يستخرج نموذج تخطيط المستند في Document Intelligence نص النمط المطبوع والمكتوب بخط اليد ك lines
و words
.
styles
المجموعة .. /يتضمن أي نمط مكتوب بخط اليد للخطوط إذا تم اكتشافه مع الامتدادات التي تشير إلى النص المقترن. تنطبق هذه الميزة على اللغات المعتمدة المكتوبة بخط اليد.
بالنسبة إلى Microsoft Word وExcel وPowerPoint وHTML، يقوم نموذج تخطيط Document Intelligence v4.0 2024-11-30
(GA) باستخراج النص المضمن كما هو. يتم استخراج النصوص ككلمات وفقرات. الصور المضمنة غير مدعومة.
"words": [
{
"content": "While",
"polygon": [],
"confidence": 0.997,
"span": {}
},
],
"lines": [
{
"content": "While healthcare is still in the early stages of its Al journey, we",
"polygon": [],
"spans": [],
}
]
- نموذج التعليمات البرمجية
-
إخراج
# Analyze lines.
for line_idx, line in enumerate(page.lines):
words = line.get_words()
print(
f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
f"within bounding polygon '{format_polygon(line.polygon)}'"
)
# Analyze words.
for word in words:
print(
f"......Word '{word.content}' has a confidence of {word.confidence}"
)
نمط مكتوب بخط اليد
الاستجابة .. /يتضمن تصنيف ما إذا كان كل سطر نص بنمط الكتابة اليدوية أم لا، إلى جانب درجة الثقة. لمزيد من المعلومات. راجع دعم اللغة المكتوبة بخط اليد. يوضح المثال التالي مثالا لمقتطف JSON.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
إذا قمت بتمكين إمكانية إضافة الخط/النمط، فستحصل أيضا على نتيجة الخط/النمط كجزء من styles
العنصر.
علامة التحديد
يستخرج نموذج التخطيط أيضا علامات التحديد من المستندات. تظهر علامات التحديد المستخرجة pages
داخل المجموعة لكل صفحة. وهي تتضمن الحدود polygon
و confidence
و والتحديد state
(selected/unselected
). يتم أيضا تضمين تمثيل النص (أي و:unselected
:selected:
) كفهرس البداية (offset
) ويشير length
إلى خاصية المستوى content
الأعلى التي تحتوي على النص الكامل من المستند.
{
"selectionMarks": [
{
"state": "unselected",
"polygon": [],
"confidence": 0.995,
"span": {
"offset": 1421,
"length": 12
}
}
]
}
- نموذج التعليمات البرمجية
-
إخراج
# Analyze selection marks.
for selection_mark in page.selection_marks:
print(
f"Selection mark is '{selection_mark.state}' within bounding polygon "
f"'{format_polygon(selection_mark.polygon)}' and has a confidence of {selection_mark.confidence}"
)
الجدول
استخراج الجداول هو مطلب رئيسي لمعالجة المستندات التي تحتوي على كميات كبيرة من البيانات المنسقة عادة كجداول. يستخرج نموذج التخطيط الجداول في pageResults
قسم من إخراج JSON. معلومات الجدول المستخرجة .. /يتضمن عدد الأعمدة والصفوف وامتداد الصف وامتداد الأعمدة. يتم إخراج كل خلية ذات المضلع المحيط بها مع معلومات حول ما إذا كان يتم التعرف على المنطقة على columnHeader
أنها أم لا. يدعم النموذج استخراج الجداول التي يتم تدويرها. تحتوي كل خلية جدول على فهرس الصفوف والأعمدة وإحداثيات المضلع المحيط. بالنسبة إلى نص الخلية، يقوم النموذج لإخراج المعلومات التي span
تحتوي على فهرس البداية (offset
). يقوم النموذج أيضا إخراج length
داخل محتوى المستوى الأعلى الذي يحتوي على النص الكامل من المستند.
فيما يلي بعض العوامل التي يجب مراعاتها عند استخدام إمكانية استخراج البالة Document Intelligence:
هل البيانات التي تريد استخراجها مقدمة كجدول، هل بنية الجدول ذات معنى؟
هل يمكن احتواء البيانات في شبكة ثنائية الأبعاد إذا لم تكن البيانات بتنسيق جدول؟
هل تمتد الجداول على صفحات متعددة؟ إذا كان الأمر كذلك، لتجنب الاضطرار إلى تسمية جميع الصفحات، قم بتقسيم ملف PDF إلى صفحات قبل إرساله إلى Document Intelligence. بعد التحليل، قم بمعالجة الصفحات إلى جدول واحد بعد ذلك.
راجع الحقول الجدولية إذا كنت تقوم بإنشاء نماذج مخصصة. تحتوي الجداول الديناميكية على عدد متغير من الصفوف لكل عمود. تحتوي الجداول الثابتة على عدد ثابت من الصفوف لكل عمود.
ملاحظة
- تحليل الجدول غير مدعوم إذا كان ملف الإدخال XLSX.
- يدعم Document Intelligence v4.0
2024-11-30
(GA) المناطق الحدودية للأرقام والجداول التي تغطي المحتوى الأساسي فقط وتستبعد التسميات التوضيحية والحواشي السفلية المقترنة.
{
"tables": [
{
"rowCount": 9,
"columnCount": 4,
"cells": [
{
"kind": "columnHeader",
"rowIndex": 0,
"columnIndex": 0,
"columnSpan": 4,
"content": "(In millions, except earnings per share)",
"boundingRegions": [],
"spans": []
},
]
}
]
}
- نموذج التعليمات البرمجية
-
إخراج
# Analyze tables.
for table_idx, table in enumerate(result.tables):
print(
f"Table # {table_idx} has {table.row_count} rows and "
f"{table.column_count} columns"
)
for region in table.bounding_regions:
print(
f"Table # {table_idx} location on page: {region.page_number} is {format_polygon(region.polygon)}"
)
for cell in table.cells:
print(
f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'"
)
for region in cell.bounding_regions:
print(
f"...content on page {region.page_number} is within bounding polygon '{format_polygon(region.polygon)}'"
)
تعليقات توضيحية
يستخرج نموذج التخطيط التعليقات التوضيحية في المستندات، مثل عمليات التحقق والعبور. الاستجابة .. /يتضمن نوع التعليق التوضيحي، جنبا إلى جنب مع درجة الثقة والمضلع المحيط.
{
"pages": [
{
"annotations": [
{
"kind": "cross",
"polygon": [...],
"confidence": 1
}
]
}
]
}
إخراج ترتيب القراءة الطبيعية (اللاتينية فقط)
يمكنك تحديد الترتيب الذي يتم به إخراج أسطر النص باستخدام معلمة readingOrder
الاستعلام. استخدم natural
لإخراج ترتيب قراءة أكثر ملاءمة للإنسان كما هو موضح في المثال التالي. هذه الميزة مدعومة فقط للغات اللاتينية.
تحديد رقم الصفحة أو النطاق لاستخراج النص
بالنسبة إلى المستندات الكبيرة متعددة الصفحات، استخدم معلمة pages
الاستعلام للإشارة إلى أرقام صفحات أو نطاقات صفحات معينة لاستخراج النص. يوضح المثال التالي مستندا يحتوي على 10 صفحات، مع استخراج النص لكلتا الحالتين - كل الصفحات (1-10) والصفحات المحددة (3-6).
عملية الحصول على تحليل نتيجة التخطيط
الخطوة الثانية هي استدعاء عملية الحصول على تحليل نتيجة التخطيط . تأخذ هذه العملية كمدخل معرف النتيجة الذي أنشأته Analyze Layout
العملية. تقوم بإرجاع استجابة JSON التي تحتوي على حقل حالة بالقيم المحتملة التالية.
الحقل | النوع | القيم المحتملة |
---|---|---|
حالة | خيط |
notStarted : لم يتم بدء عملية التحليل.running : عملية التحليل قيد التقدم. failed : فشلت عملية التحليل. succeeded : نجحت عملية التحليل. |
قم باستدعاء هذه العملية بشكل متكرر حتى تقوم بإرجاع succeeded
القيمة. لتجنب تجاوز الطلبات في الثانية (RPS)، استخدم فاصلا زمنيا من 3 إلى 5 ثوان.
عندما يحتوي حقل الحالة على succeeded
القيمة، تكون استجابة JSON .. /يتضمن التخطيط المستخرج والنص والجداول وعلامات التحديد. البيانات المستخرجة .. /يتضمن الأسطر والكلمات النصية المستخرجة، والمربعات المحيطة، ومظهر النص مع الإشارة المكتوبة بخط اليد، والجداول، وعلامات التحديد مع الإشارة إليها محددة/غير محددة.
التصنيف المكتوب بخط اليد للخطوط النصية (اللاتينية فقط)
الاستجابة .. /يتضمن تصنيف ما إذا كان كل سطر نص بنمط الكتابة اليدوية أم لا، إلى جانب درجة الثقة. هذه الميزة مدعومة فقط للغات اللاتينية. يوضح المثال التالي التصنيف المكتوب بخط اليد للنص في الصورة.
عينة إخراج JSON
الاستجابة لعملية الحصول على تحليل نتيجة التخطيط هي تمثيل منظم للمستند مع استخراج جميع المعلومات. انظر هنا للحصول على نموذج ملف مستندوإخراج تخطيط نموذج الإخراج المنظم الخاص به.
يحتوي إخراج JSON على جزأين:
-
readResults
تحتوي العقدة على كل النص الذي تم التعرف عليه وعلامة التحديد. التسلسل الهرمي للعرض التقديمي للنص هو صفحة، ثم سطر، ثم كلمات فردية. -
pageResults
تحتوي العقدة على الجداول والخلايا المستخرجة بمربعات الإحاطة والثقة والمرجع إلى الأسطر والكلمات في حقل "readResults".
مثال على الإخراج
النص
تستخرج واجهة برمجة تطبيقات التخطيط النص من المستندات والصور بزوايا وألوان نصية متعددة. وهو يقبل صور المستندات والفاكسات والنصوص المطبوعة و/أو المكتوبة بخط اليد (باللغة الإنجليزية فقط) والأوضاع المختلطة. يتم استخراج النص بالمعلومات المتوفرة على الأسطر والكلمات ومربعات الإحاطة ودرجات الثقة والنمط (مكتوب بخط اليد أو غير ذلك). يتم تضمين جميع المعلومات النصية في readResults
قسم من إخراج JSON.
الجداول ذات الرؤوس
تستخرج واجهة برمجة تطبيقات التخطيط الجداول في pageResults
قسم إخراج JSON. يمكن مسح المستندات ضوئيا أو تصويرها أو رقمنتها. يمكن أن تكون الجداول معقدة مع الخلايا أو الأعمدة المدمجة، مع حدود أو بدونها، وبزوايا فردية. معلومات الجدول المستخرجة .. /يتضمن عدد الأعمدة والصفوف وامتداد الصف وامتداد الأعمدة. يتم إخراج كل خلية بمربع الإحاطة الخاص بها مع ما إذا كان يتم التعرف على المنطقة كجزء من رأس أم لا. يمكن أن تمتد خلايا الرأس المتوقعة للنموذج على صفوف متعددة، وهي ليست بالضرورة الصفوف الأولى في جدول. كما أنها تعمل مع الجداول التي تم تدويرها. كل خلية جدول أيضا .. /يتضمن النص الكامل مع مراجع إلى الكلمات الفردية في readResults
المقطع.
علامات التحديد (المستندات)
تستخرج واجهة برمجة تطبيقات التخطيط أيضا علامات التحديد من المستندات. تتضمن علامات التحديد المستخرجة المربع المحيط والثقة والحالة (محدد/غير محدد). يتم استخراج معلومات علامة التحديد في readResults
قسم من إخراج JSON.
دليل الترحيل
- اتبع دليل ترحيل Document Intelligence v3.1 لمعرفة كيفية استخدام إصدار v3.1 في التطبيقات وسير العمل.
الخطوات التالية
تعرف على كيفية معالجة النماذج والمستندات الخاصة بك باستخدام Document Intelligence Studio.
أكمل التشغيل السريع ل Document Intelligence وابدأ في إنشاء تطبيق لمعالجة المستندات بلغة التطوير التي تختارها.
تعرف على كيفية معالجة النماذج والمستندات الخاصة بك باستخدام أداة تسمية نموذج ذكاء المستند.
أكمل التشغيل السريع ل Document Intelligence وابدأ في إنشاء تطبيق لمعالجة المستندات بلغة التطوير التي تختارها.