خصائص بيانات تعريف المحتوى المستخدمة في Azure الذكاء الاصطناعي Search
تحتوي العديد من مصادر البيانات المدعومة من المفهرس، بما في ذلك Azure Blob Storage وAzure Data Lake Storage Gen2 وSharePoint، على ملفات مستقلة أو كائنات مضمنة من أنواع محتويات مختلفة. تحتوي العديد من أنواع المحتويات هذه على خصائص بيانات تعريف يمكن أن تكون مفيدة للفهرسة. تماما كما يمكنك إنشاء حقول بحث لخصائص blob القياسية مثل metadata_storage_name
، يمكنك إنشاء حقول في فهرس بحث عن خصائص بيانات التعريف الخاصة بتنسيق مستند.
تنسيقات المستندات المعتمدة
يدعم Azure الذكاء الاصطناعي Search فهرسة الكائنات الثنائية كبيرة الحجم وفهرسة مستندات SharePoint لتنسيقات المستندات التالية:
- CSV (راجع فهرسة الكائنات الثنائية كبيرة الحجم ل CSV)
- يمل
- EPUB
- Gz
- HTML
- JSON (راجع فهرسة الكائنات الثنائية كبيرة الحجم ل JSON)
- KML (XML للتمثيلات الجغرافية)
- تنسيقات Microsoft Office: DOCX/DOC/DOCM، XLSX/XLS/XLSM، PPTX/PPT/PPTM، MSG (رسائل البريد الإلكتروني في Outlook)، XML (كل من 2003 و2006 WORD XML)
- فتح تنسيقات المستندات: ODT، ODS، ODP
- ملفات النص العادي (راجع أيضا فهرسة النص العادي)
- RTF
- XML
- ZIP
الخصائص حسب تنسيق المستند
يلخص الجدول التالي معالجة كل تنسيق مستند، ويصف خصائص بيانات التعريف المستخرجة بواسطة مفهرس كائن ثنائي كبير الحجم ومفهرس SharePoint Online.
تنسيق المستند / نوع المحتوى | بيانات التعريف المستخرجة | تفاصيل المعالجة |
---|---|---|
CSV (text/csv) | metadata_content_type metadata_content_encoding |
استخراج النص ملاحظة: إذا كنت بحاجة إلى استخراج حقول مستندات متعددة من كائن ثنائي كبير الحجم CSV، فشاهد فهرسة الكائنات الثنائية كبيرة الحجم ل CSV للحصول على التفاصيل |
DOC (application/msword) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
استخراج النص، بما في ذلك المستندات المضمنة |
DOCM (application/vnd.ms-word.document.macroenabled.12) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
استخراج النص، بما في ذلك المستندات المضمنة |
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
استخراج النص، بما في ذلك المستندات المضمنة |
EML (رسالة/rfc822) | metadata_content_type metadata_message_from metadata_message_to metadata_message_cc metadata_creation_date metadata_subject |
استخراج النص، بما في ذلك المرفقات |
EPUB (application/epub+zip) | metadata_content_type metadata_author metadata_creation_date metadata_title metadata_description metadata_language metadata_keywords metadata_identifier metadata_publisher |
استخراج نص من كافة المستندات في الأرشيف |
GZ (application/gzip) | metadata_content_type |
استخراج نص من كافة المستندات في الأرشيف |
HTML (نص/html أو تطبيق/xhtml+xml) | metadata_content_encoding metadata_content_type metadata_language metadata_description metadata_keywords metadata_title |
شريط علامات HTML واستخراج النص |
JSON (application/json) | metadata_content_type metadata_content_encoding |
استخراج النص ملاحظة: إذا كنت بحاجة إلى استخراج حقول مستندات متعددة من كائن ثنائي كبير الحجم JSON، فشاهد فهرسة الكائنات الثنائية كبيرة الحجم ل JSON للحصول على التفاصيل |
KML (application/vnd.google-earth.kml+xml) | metadata_content_type metadata_content_encoding metadata_language |
علامات XML الشريطية واستخراج النص |
MSG (application/vnd.ms-outlook) | metadata_content_type metadata_message_from metadata_message_from_email metadata_message_to metadata_message_to_email metadata_message_cc metadata_message_cc_email metadata_message_bcc metadata_message_bcc_email metadata_creation_date metadata_last_modified metadata_subject |
استخراج النص، بما في ذلك النص المستخرج من المرفقات. metadata_message_to_email ، metadata_message_cc_email و metadata_message_bcc_email هي مجموعات سلاسل، بقية الحقول هي سلاسل. |
ODP (application/vnd.oasis.opendocument.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_title |
استخراج النص، بما في ذلك المستندات المضمنة |
ODS (application/vnd.oasis.opendocument.spreadsheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
استخراج النص، بما في ذلك المستندات المضمنة |
ODT (application/vnd.oasis.opendocument.text) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
استخراج النص، بما في ذلك المستندات المضمنة |
PDF (تطبيق/pdf) | metadata_content_type metadata_language metadata_author metadata_title metadata_creation_date |
استخراج النص، بما في ذلك المستندات المضمنة (باستثناء الصور) |
نص عادي (نص/عادي) | metadata_content_type metadata_content_encoding metadata_language |
استخراج النص |
PPT (application/vnd.ms-powerpoint) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
استخراج النص، بما في ذلك المستندات المضمنة |
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
استخراج النص، بما في ذلك المستندات المضمنة |
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
استخراج النص، بما في ذلك المستندات المضمنة |
RTF (application/rtf) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
استخراج النص |
WORD 2003 XML (application/vnd.ms-wordml) | metadata_content_type metadata_author metadata_creation_date |
علامات XML الشريطية واستخراج النص |
WORD XML (application/vnd.ms-word2006ml) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
علامات XML الشريطية واستخراج النص |
XLS (application/vnd.ms-excel) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
استخراج النص، بما في ذلك المستندات المضمنة |
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
استخراج النص، بما في ذلك المستندات المضمنة |
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
استخراج النص، بما في ذلك المستندات المضمنة |
XML (application/xml) | metadata_content_type metadata_content_encoding metadata_language |
علامات XML الشريطية واستخراج النص |
ZIP (تطبيق/مضغوط) | metadata_content_type |
استخراج نص من كافة المستندات في الأرشيف |