خصائص بيانات تعريف المحتوى المستخدمة في Azure الذكاء الاصطناعي Search

تحتوي العديد من مصادر البيانات المدعومة من المفهرس، بما في ذلك Azure Blob Storage وAzure Data Lake Storage Gen2 وSharePoint، على ملفات مستقلة أو كائنات مضمنة من أنواع محتويات مختلفة. تحتوي العديد من أنواع المحتويات هذه على خصائص بيانات تعريف يمكن أن تكون مفيدة للفهرسة. تماما كما يمكنك إنشاء حقول بحث لخصائص blob القياسية مثل metadata_storage_name، يمكنك إنشاء حقول في فهرس بحث عن خصائص بيانات التعريف الخاصة بتنسيق مستند.

تنسيقات المستندات المعتمدة

يدعم Azure الذكاء الاصطناعي Search فهرسة الكائنات الثنائية كبيرة الحجم وفهرسة مستندات SharePoint لتنسيقات المستندات التالية:

الخصائص حسب تنسيق المستند

يلخص الجدول التالي معالجة كل تنسيق مستند، ويصف خصائص بيانات التعريف المستخرجة بواسطة مفهرس كائن ثنائي كبير الحجم ومفهرس SharePoint Online.

تنسيق المستند / نوع المحتوى بيانات التعريف المستخرجة تفاصيل المعالجة
CSV (text/csv) metadata_content_type
metadata_content_encoding
استخراج النص
ملاحظة: إذا كنت بحاجة إلى استخراج حقول مستندات متعددة من كائن ثنائي كبير الحجم CSV، فشاهد فهرسة الكائنات الثنائية كبيرة الحجم ل CSV للحصول على التفاصيل
DOC (application/msword) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
استخراج النص، بما في ذلك المستندات المضمنة
DOCM (application/vnd.ms-word.document.macroenabled.12) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
استخراج النص، بما في ذلك المستندات المضمنة
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
استخراج النص، بما في ذلك المستندات المضمنة
EML (رسالة/rfc822) metadata_content_type
metadata_message_from
metadata_message_to
metadata_message_cc
metadata_creation_date
metadata_subject
استخراج النص، بما في ذلك المرفقات
EPUB (application/epub+zip) metadata_content_type
metadata_author
metadata_creation_date
metadata_title
metadata_description
metadata_language
metadata_keywords
metadata_identifier
metadata_publisher
استخراج نص من كافة المستندات في الأرشيف
GZ (application/gzip) metadata_content_type استخراج نص من كافة المستندات في الأرشيف
HTML (نص/html أو تطبيق/xhtml+xml) metadata_content_encoding
metadata_content_type
metadata_language
metadata_description
metadata_keywords
metadata_title
شريط علامات HTML واستخراج النص
JSON (application/json) metadata_content_type
metadata_content_encoding
استخراج النص
ملاحظة: إذا كنت بحاجة إلى استخراج حقول مستندات متعددة من كائن ثنائي كبير الحجم JSON، فشاهد فهرسة الكائنات الثنائية كبيرة الحجم ل JSON للحصول على التفاصيل
KML (application/vnd.google-earth.kml+xml) metadata_content_type
metadata_content_encoding
metadata_language
علامات XML الشريطية واستخراج النص
MSG (application/vnd.ms-outlook) metadata_content_type
metadata_message_from
metadata_message_from_email
metadata_message_to
metadata_message_to_email
metadata_message_cc
metadata_message_cc_email
metadata_message_bcc
metadata_message_bcc_email
metadata_creation_date
metadata_last_modified
metadata_subject
استخراج النص، بما في ذلك النص المستخرج من المرفقات. metadata_message_to_email، metadata_message_cc_email و metadata_message_bcc_email هي مجموعات سلاسل، بقية الحقول هي سلاسل.
ODP (application/vnd.oasis.opendocument.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_title
استخراج النص، بما في ذلك المستندات المضمنة
ODS (application/vnd.oasis.opendocument.spreadsheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
استخراج النص، بما في ذلك المستندات المضمنة
ODT (application/vnd.oasis.opendocument.text) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
استخراج النص، بما في ذلك المستندات المضمنة
PDF (تطبيق/pdf) metadata_content_type
metadata_language
metadata_author
metadata_title
metadata_creation_date
استخراج النص، بما في ذلك المستندات المضمنة (باستثناء الصور)
نص عادي (نص/عادي) metadata_content_type
metadata_content_encoding
metadata_language
استخراج النص
PPT (application/vnd.ms-powerpoint) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
استخراج النص، بما في ذلك المستندات المضمنة
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
استخراج النص، بما في ذلك المستندات المضمنة
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
استخراج النص، بما في ذلك المستندات المضمنة
RTF (application/rtf) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
استخراج النص
WORD 2003 XML (application/vnd.ms-wordml) metadata_content_type
metadata_author
metadata_creation_date
علامات XML الشريطية واستخراج النص
WORD XML (application/vnd.ms-word2006ml) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
علامات XML الشريطية واستخراج النص
XLS (application/vnd.ms-excel) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
استخراج النص، بما في ذلك المستندات المضمنة
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
استخراج النص، بما في ذلك المستندات المضمنة
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
استخراج النص، بما في ذلك المستندات المضمنة
XML (application/xml) metadata_content_type
metadata_content_encoding
metadata_language
علامات XML الشريطية واستخراج النص
ZIP (تطبيق/مضغوط) metadata_content_type استخراج نص من كافة المستندات في الأرشيف

(راجع أيضًا )