فهرسة البيانات من مكتبات مستندات SharePoint
هام
يتوفر دعم مفهرس SharePoint Online في المعاينة العامة. يتم تقديمه "كما هو"، ضمن شروط الاستخدام التكميلية ويتم دعمه بأفضل جهد فقط. لا يوصى بميزات المعاينة لأحمال عمل الإنتاج ولا يضمن توفرها بشكل عام.
تأكد من زيارة قسم القيود المعروفة قبل البدء.
لاستخدام هذه المعاينة، املأ هذا النموذج. لن تتلقى أي إشعار بالموافقة مباشرة بعد ذلك حيث يتم قبول أي طلب وصول تلقائيا بعد الإرسال. بعد تمكين الوصول، استخدم معاينة REST API (2023-10-01-Preview أو أحدث) لفهرسة المحتوى الخاص بك.
تشرح هذه المقالة كيفية تكوين مفهرس بحث لفهرسة المستندات المخزنة في مكتبات مستندات SharePoint للبحث عن النص الكامل في Azure الذكاء الاصطناعي Search. خطوات التكوين أولا، متبوعة بالسلوكيات والسيناريوهات
الدالات
المفهرس في Azure الذكاء الاصطناعي Search هو متتبع ارتباطات يستخرج بيانات وبيانات تعريف قابلة للبحث من مصدر بيانات. يتصل مفهرس SharePoint Online بموقع SharePoint الخاص بك ويفهرس المستندات من مكتبة مستندات واحدة أو أكثر. يوفر المفهرس الوظائف التالية:
- فهرسة الملفات وبيانات التعريف من مكتبة مستندات واحدة أو أكثر.
- الفهرسة بشكل متزايد، التقاط الملفات وبيانات التعريف الجديدة والمتغيرة فقط.
- تم تضمين الكشف عن الحذف. يتم التقاط الحذف في مكتبة المستندات في تشغيل المفهرس التالي، ويتم إزالة المستند من الفهرس.
- يتم استخراج النص والصور التي تمت تسويتها بشكل افتراضي من المستندات المفهرسة. اختياريا، يمكنك إضافة مجموعة مهارات لإثراء الذكاء الاصطناعي أعمق، مثل التعرف البصري على الحروف أو الترجمة النصية.
المتطلبات الأساسية
SharePoint في خدمة Microsoft 365 السحابية
الملفات الموجودة في مكتبة مستندات
تنسيقات المستندات المعتمدة
يمكن لمفهرس SharePoint Online استخراج النص من تنسيقات المستندات التالية:
- CSV (راجع فهرسة الكائنات الثنائية كبيرة الحجم ل CSV)
- يمل
- EPUB
- Gz
- HTML
- JSON (راجع فهرسة الكائنات الثنائية كبيرة الحجم ل JSON)
- KML (XML للتمثيلات الجغرافية)
- تنسيقات Microsoft Office: DOCX/DOC/DOCM، XLSX/XLS/XLSM، PPTX/PPT/PPTM، MSG (رسائل البريد الإلكتروني في Outlook)، XML (كل من 2003 و2006 WORD XML)
- فتح تنسيقات المستندات: ODT، ODS، ODP
- ملفات النص العادي (راجع أيضا فهرسة النص العادي)
- RTF
- XML
- ZIP
تحديد الخدمة واعتباراتها
فيما يلي قيود هذه الميزة:
فهرسة قوائم SharePoint غير معتمدة.
فهرسة SharePoint . محتوى موقع ASPX غير مدعوم.
ملفات دفتر ملاحظات OneNote غير معتمدة.
نقطة النهاية الخاصة غير مدعومة.
لا تؤدي إعادة تسمية مجلد SharePoint إلى تشغيل الفهرسة التزايدية. يتم التعامل مع المجلد الذي تمت إعادة تسميته كمحتوى جديد.
يدعم SharePoint نموذج تخويل متعدد المستويات يحدد الوصول لكل مستخدم على مستوى المستند. لا يسحب المفهرس هذه الأذونات إلى الفهرس، ولا يدعم Azure الذكاء الاصطناعي Search التخويل على مستوى المستند. عند فهرسة مستند من SharePoint إلى خدمة بحث، يتوفر المحتوى لأي شخص لديه حق الوصول للقراءة إلى الفهرس. إذا كنت تحتاج إلى أذونات على مستوى المستند، يجب مراعاة عوامل تصفية الأمان لاقتطاع النتائج وأتمتة نسخ الأذونات على مستوى الملف إلى حقل في الفهرس.
فهرسة الملفات المشفرة من قبل المستخدم، والملفات المحمية بإدارة حقوق المعلومات (IRM)، وملفات ZIP مع كلمات المرور أو محتوى مشفر مماثل غير مدعوم. لكي تتم معالجة المحتوى المشفر، يجب على المستخدم الذي له أذونات مناسبة للملف المحدد إزالة التشفير بحيث يمكن فهرسة العنصر وفقا لذلك عندما يقوم المفهرس بتشغيل التكرار المجدول التالي.
فيما يلي الاعتبارات عند استخدام هذه الميزة:
- إذا كنت بحاجة إلى حل فهرسة محتوى SharePoint في بيئة إنتاج، ففكر في إنشاء موصل مخصص باستخدام SharePoint Webhooks، واستدعاء Microsoft Graph API لتصدير البيانات إلى حاوية Azure Blob، ثم استخدام مفهرس Azure blob للفهرسة المتزايدة.
- إذا كان تكوين SharePoint يسمح لعمليات Microsoft 365 بتحديث بيانات تعريف نظام ملفات SharePoint، فكن على دراية بأن هذه التحديثات يمكن أن تؤدي إلى تشغيل مفهرس SharePoint Online، مما يتسبب في استيعاب المفهرس للمستندات عدة مرات. نظرا لأن مفهرس SharePoint Online هو موصل تابع لجهة خارجية إلى Azure، فلا يمكن للمفهرس قراءة التكوين أو تغيير سلوكه. يستجيب للتغييرات في المحتوى الجديد والمتغير، بغض النظر عن كيفية إجراء هذه التحديثات. لهذا السبب، تأكد من اختبار الإعداد وفهم عدد معالجة المستندات قبل استخدام المفهرس وأي إثراء الذكاء الاصطناعي.
تكوين مفهرس SharePoint Online
لإعداد مفهرس SharePoint Online، استخدم كلا من مدخل Microsoft Azure وواجهة برمجة تطبيقات REST للمعاينة.
يوفر هذا القسم الخطوات. يمكنك أيضا مشاهدة الفيديو التالي.
الخطوة 1 (اختياري): تمكين الهوية المدارة المعينة من قبل النظام
تمكين هوية مدارة معينة من قبل النظام للكشف تلقائيا عن المستأجر الذي يتم توفير خدمة البحث فيه.
نفذ هذه الخطوة إذا كان موقع SharePoint في نفس المستأجر مثل خدمة البحث. تخطي هذه الخطوة إذا كان موقع SharePoint في مستأجر مختلف. لا يتم استخدام الهوية للفهرسة، فقط الكشف عن المستأجر. يمكنك أيضا تخطي هذه الخطوة إذا كنت تريد وضع معرف المستأجر في سلسلة الاتصال.
بعد تحديد حفظ، تحصل على معرف كائن تم تعيينه لخدمة البحث.
الخطوة 2: تحديد الأذونات التي يتطلبها المفهرس
يدعم مفهرس SharePoint Online كلا من الأذونات المفوضة وأذونات التطبيق . اختر الأذونات التي تريد استخدامها استنادا إلى السيناريو الخاص بك.
نوصي بالأذونات المستندة إلى التطبيق. راجع القيود المفروضة على المشكلات المعروفة المتعلقة بالأذونات المفوضة.
أذونات التطبيق (مستحسن)، حيث يتم تشغيل المفهرس ضمن هوية مستأجر SharePoint مع إمكانية الوصول إلى جميع المواقع والملفات. يتطلب المفهرس سر العميل. سيحتاج المفهرس أيضا إلى موافقة مسؤول المستأجر قبل أن يتمكن من فهرسة أي محتوى.
الأذونات المفوضة، حيث يعمل المفهرس تحت هوية المستخدم أو التطبيق الذي يرسل الطلب. يقتصر الوصول إلى البيانات على المواقع والملفات التي يمكن للمتصل الوصول إليها. لدعم الأذونات المفوضة، يتطلب المفهرس مطالبة رمز الجهاز لتسجيل الدخول نيابة عن المستخدم. تفرض الأذونات المفوضة من قبل المستخدم انتهاء صلاحية الرمز المميز كل 75 دقيقة، وفقا لأحدث مكتبات الأمان المستخدمة لتنفيذ نوع المصادقة هذا. هذا ليس سلوكا يمكن تعديله. يتطلب الرمز المميز منتهية الصلاحية الفهرسة اليدوية باستخدام Run Indexer (معاينة). لهذا السبب، قد تحتاج إلى أذونات مستندة إلى التطبيق بدلا من ذلك.
إذا تم تمكين الوصول المشروط لمؤسسة Microsoft Entra ولم يتمكن المسؤول من منح أي وصول إلى الجهاز للأذونات المفوضة، فيجب مراعاة الأذونات المستندة إلى التطبيق بدلا من ذلك. لمزيد من المعلومات، راجع نهج الوصول المشروط ل Microsoft Entra.
الخطوة 3: إنشاء تسجيل تطبيق Microsoft Entra
يستخدم مفهرس SharePoint Online تطبيق Microsoft Entra هذا للمصادقة.
قم بتسجيل الدخول إلى بوابة Azure.
ابحث عن معرف Microsoft Entra أو انتقل إليه، ثم حدد تسجيلات التطبيقات.
حدد + تسجيل جديد:
- أدخل اسما لتطبيقك.
- حدد مستأجر واحد.
- تخطي خطوة تعيين URI. لا يلزم إعادة توجيه URI.
- حدد تسجيل.
على اليسار، حدد أذونات واجهة برمجة التطبيقات، ثم إضافة إذن، ثم Microsoft Graph.
إذا كان المفهرس يستخدم أذونات واجهة برمجة تطبيقات التطبيق، فحدد أذونات التطبيق وأضف ما يلي:
- التطبيق - Files.Read.All
- التطبيق - Sites.Read.All
يعني استخدام أذونات التطبيق أن المفهرس يصل إلى موقع SharePoint في سياق خدمة. لذلك عند تشغيل المفهرس، سيكون لديه حق الوصول إلى جميع المحتويات في مستأجر SharePoint، مما يتطلب موافقة مسؤول المستأجر. مطلوب أيضا سر العميل للمصادقة. يتم وصف إعداد سر العميل لاحقا في هذه المقالة.
إذا كان المفهرس يستخدم أذونات واجهة برمجة التطبيقات المفوضة، فحدد الأذونات المفوضة وأضف ما يلي:
- مفوض - Files.Read.All
- مفوض - Sites.Read.All
- مفوض - User.Read
تسمح الأذونات المفوضة لعميل البحث بالاتصال ب SharePoint ضمن هوية الأمان للمستخدم الحالي.
منح موافقة المسؤول.
موافقة مسؤول المستأجر مطلوبة عند استخدام أذونات واجهة برمجة تطبيقات التطبيق. يتم تأمين بعض المستأجرين بطريقة تتطلب موافقة مسؤول المستأجر لأذونات واجهة برمجة التطبيقات المفوضة أيضا. إذا تم تطبيق أي من هذين الشرطين، فستحتاج إلى الحصول على موافقة مسؤول مستأجر على تطبيق Microsoft Entra هذا قبل إنشاء المفهرس.
حدد علامة التبويب مصادقة.
قم بتعيين Allow public client flows إلى Yes ثم حدد Save.
حدد + إضافة نظام أساسي، ثم تطبيقات الجوال وسطح المكتب، ثم حدد
https://login.microsoftonline.com/common/oauth2/nativeclient
، ثم تكوين.(أذونات واجهة برمجة تطبيقات التطبيق فقط) للمصادقة على تطبيق Microsoft Entra باستخدام أذونات التطبيق، يتطلب المفهرس سر العميل.
حدد Certificates & Secrets من القائمة على اليسار، ثم Client secrets، ثم New client secret.
في القائمة المنبثقة، أدخل وصفا لسر العميل الجديد. اضبط تاريخ انتهاء الصلاحية إذا لزم الأمر. إذا انتهت صلاحية البيانات السرية، فيجب إعادة إنشائها ويجب تحديث المفهرس بالسر الجديد.
يظهر سر العميل الجديد في القائمة السرية. بمجرد التنقل بعيدا عن الصفحة، لن يكون السر مرئيا، لذا انسخه باستخدام زر النسخ واحفظه في موقع آمن.
الخطوة 4: إنشاء مصدر بيانات
هام
بدءا من هذا القسم، استخدم واجهة برمجة تطبيقات REST للمعاينة للخطوات المتبقية. نوصي بأحدث واجهة برمجة تطبيقات للمعاينة، 2023-10-01-preview. إذا لم تكن على دراية بواجهة برمجة تطبيقات Azure الذكاء الاصطناعي Search REST، نقترح إلقاء نظرة على هذا التشغيل السريع.
يحدد مصدر البيانات البيانات التي يجب فهرستها وبيانات الاعتماد والنهج لتحديد التغييرات في البيانات بكفاءة (الصفوف الجديدة أو المعدلة أو المحذوفة). يمكن استخدام مصدر بيانات من قبل مفهرسات متعددة في نفس خدمة البحث.
بالنسبة إلى فهرسة SharePoint، يجب أن يحتوي مصدر البيانات على الخصائص المطلوبة التالية:
- الاسم هو الاسم الفريد لمصدر البيانات داخل خدمة البحث.
- يجب أن يكون النوع "sharepoint". هذه القيمة حساسة لحالة الأحرف.
- توفر بيانات الاعتماد نقطة نهاية SharePoint ومعرف تطبيق Microsoft Entra (العميل). مثال على نقطة نهاية SharePoint هو
https://microsoft.sharepoint.com/teams/MySharePointSite
. يمكنك الحصول على نقطة النهاية بالانتقال إلى الصفحة الرئيسية لموقع SharePoint ونسخ عنوان URL من المستعرض. - تحدد الحاوية مكتبة المستندات التي يجب فهرستها. تتحكم الخصائص في المستندات التي تتم فهرستها.
لإنشاء مصدر بيانات، اتصل بإنشاء مصدر بيانات (معاينة).
POST https://[service name].search.windows.net/datasources?api-version=2023-10-01-Preview
Content-Type: application/json
api-key: [admin key]
{
"name" : "sharepoint-datasource",
"type" : "sharepoint",
"credentials" : { "connectionString" : "[connection-string]" },
"container" : { "name" : "defaultSiteLibrary", "query" : null }
}
تنسيق سلسلة الاتصال ion
يتغير تنسيق سلسلة الاتصال استنادا إلى ما إذا كان المفهرس يستخدم أذونات واجهة برمجة التطبيقات المفوضة أو أذونات واجهة برمجة تطبيقات التطبيق
تنسيق سلسلة الاتصال أذونات واجهة برمجة التطبيقات المفوضة
SharePointOnlineEndpoint=[SharePoint site url];ApplicationId=[Azure AD App ID];TenantId=[SharePoint site tenant id]
تنسيق سلسلة الاتصال أذونات واجهة برمجة تطبيقات التطبيق
SharePointOnlineEndpoint=[SharePoint site url];ApplicationId=[Azure AD App ID];ApplicationSecret=[Azure AD App client secret];TenantId=[SharePoint site tenant id]
إشعار
إذا كان موقع SharePoint في نفس المستأجر مثل خدمة البحث وتم تمكين الهوية المدارة المعينة من قبل النظام، TenantId
فلا يلزم تضمينه في سلسلة الاتصال. إذا كان موقع SharePoint في مستأجر مختلف عن خدمة البحث، TenantId
فيجب تضمينه.
الخطوة 5: إنشاء فهرس
يحدد الفهرس الحقول في مستند وسمات وبنيات أخرى تشكل تجربة البحث.
لإنشاء فهرس، اتصل بإنشاء فهرس (معاينة):
POST https://[service name].search.windows.net/indexes?api-version=2023-10-01-Preview
Content-Type: application/json
api-key: [admin key]
{
"name" : "sharepoint-index",
"fields": [
{ "name": "id", "type": "Edm.String", "key": true, "searchable": false },
{ "name": "metadata_spo_item_name", "type": "Edm.String", "key": false, "searchable": true, "filterable": false, "sortable": false, "facetable": false },
{ "name": "metadata_spo_item_path", "type": "Edm.String", "key": false, "searchable": false, "filterable": false, "sortable": false, "facetable": false },
{ "name": "metadata_spo_item_content_type", "type": "Edm.String", "key": false, "searchable": false, "filterable": true, "sortable": false, "facetable": true },
{ "name": "metadata_spo_item_last_modified", "type": "Edm.DateTimeOffset", "key": false, "searchable": false, "filterable": false, "sortable": true, "facetable": false },
{ "name": "metadata_spo_item_size", "type": "Edm.Int64", "key": false, "searchable": false, "filterable": false, "sortable": false, "facetable": false },
{ "name": "content", "type": "Edm.String", "searchable": true, "filterable": false, "sortable": false, "facetable": false }
]
}
هام
metadata_spo_site_library_item_id
يمكن استخدام فقط ك حقل مفتاح في فهرس يتم ملؤه بواسطة مفهرس SharePoint Online. إذا لم يكن حقل المفتاح موجودا في مصدر البيانات، metadata_spo_site_library_item_id
يتم تعيينه تلقائيا إلى حقل المفتاح.
الخطوة 6: إنشاء مفهرس
يقوم المفهرس بتوصيل مصدر بيانات بفهرس بحث هدف ويوفر جدولا لأتمتة تحديث البيانات. بمجرد إنشاء الفهرس ومصدر البيانات، يمكنك إنشاء المفهرس.
أثناء هذه الخطوة، يطلب منك تسجيل الدخول باستخدام بيانات اعتماد المؤسسة التي لديها حق الوصول إلى موقع SharePoint. إذا كان ذلك ممكنا، نوصي بإنشاء حساب مستخدم تنظيمي جديد ومنح هذا المستخدم الجديد الأذونات الدقيقة التي تريد أن يمتلكها المفهرس.
هناك بعض الخطوات لإنشاء المفهرس:
إرسال طلب إنشاء مفهرس (معاينة):
POST https://[service name].search.windows.net/indexers?api-version=2023-10-01-Preview Content-Type: application/json api-key: [admin key] { "name" : "sharepoint-indexer", "dataSourceName" : "sharepoint-datasource", "targetIndexName" : "sharepoint-index", "parameters": { "batchSize": null, "maxFailedItems": null, "maxFailedItemsPerBatch": null, "base64EncodeKeys": null, "configuration": { "indexedFileNameExtensions" : ".pdf, .docx", "excludedFileNameExtensions" : ".png, .jpg", "dataToExtract": "contentAndMetadata" } }, "schedule" : { }, "fieldMappings" : [ { "sourceFieldName" : "metadata_spo_site_library_item_id", "targetFieldName" : "id", "mappingFunction" : { "name" : "base64Encode" } } ] }
عند إنشاء المفهرس للمرة الأولى، ينتظر طلب إنشاء مفهرس (معاينة) حتى تكمل الخطوة التالية. يجب عليك استدعاء الحصول على حالة المفهرس للحصول على الارتباط وإدخال رمز الجهاز الجديد.
GET https://[service name].search.windows.net/indexers/sharepoint-indexer/status?api-version=2023-10-01-Preview Content-Type: application/json api-key: [admin key]
إذا لم تقم بتشغيل الحصول على حالة المفهرس في غضون 10 دقائق، تنتهي صلاحية التعليمات البرمجية وستحتاج إلى إعادة إنشاء مصدر البيانات.
انسخ رمز تسجيل دخول الجهاز من استجابة الحصول على حالة المفهرس. يمكن العثور على تسجيل دخول الجهاز في "errorMessage".
{ "lastResult": { "status": "transientFailure", "errorMessage": "To sign in, use a web browser to open the page https://microsoft.com/devicelogin and enter the code <CODE> to authenticate." } }
قم بتوفير التعليمات البرمجية التي تم تضمينها في رسالة الخطأ.
سيقوم مفهرس SharePoint Online بالوصول إلى محتوى SharePoint كمستخدم سجل الدخول. سيكون المستخدم الذي يسجل الدخول أثناء هذه الخطوة هو المستخدم الذي قام بتسجيل الدخول. لذلك، إذا قمت بتسجيل الدخول باستخدام حساب مستخدم ليس لديه حق الوصول إلى مستند في مكتبة المستندات التي تريد فهرستها، فلن يتمكن المفهرس من الوصول إلى هذا المستند.
إذا كان ذلك ممكنا، نوصي بإنشاء حساب مستخدم جديد ومنح هذا المستخدم الجديد الأذونات الدقيقة التي تريد أن يمتلكها المفهرس.
الموافقة على الأذونات المطلوبة.
يكتمل الطلب الأولي إنشاء مفهرس (معاينة) إذا كانت جميع الأذونات المقدمة أعلاه صحيحة وضمن الإطار الزمني البالغ 10 دقائق.
إشعار
إذا كان تطبيق Microsoft Entra يتطلب موافقة المسؤول ولم تتم الموافقة عليه قبل تسجيل الدخول، فقد ترى الشاشة التالية. مسؤول الموافقة مطلوبة للمتابعة.
الخطوة 7: تحقق من حالة المفهرس
بعد إنشاء المفهرس، يمكنك استدعاء الحصول على حالة المفهرس:
GET https://[service name].search.windows.net/indexers/sharepoint-indexer/status?api-version=2023-10-01-Preview
Content-Type: application/json
api-key: [admin key]
تحديث مصدر البيانات
إذا لم تكن هناك تحديثات لكائن مصدر البيانات، يتم تشغيل المفهرس على جدول زمني دون أي تفاعل من المستخدم.
ومع ذلك، إذا قمت بتعديل كائن مصدر البيانات أثناء انتهاء صلاحية رمز الجهاز، يجب تسجيل الدخول مرة أخرى لتشغيل المفهرس. على سبيل المثال، إذا قمت بتغيير استعلام مصدر البيانات، فقم بتسجيل الدخول مرة أخرى باستخدام https://microsoft.com/devicelogin
والحصول على رمز الجهاز الجديد.
فيما يلي خطوات تحديث مصدر بيانات، بافتراض وجود رمز جهاز منتهية الصلاحية:
استدعاء مفهرس التشغيل (معاينة) لبدء تنفيذ المفهرس يدويا.
POST https://[service name].search.windows.net/indexers/sharepoint-indexer/run?api-version=2023-10-01-Preview Content-Type: application/json api-key: [admin key]
تحقق من حالة المفهرس.
GET https://[service name].search.windows.net/indexers/sharepoint-indexer/status?api-version=2023-10-01-Preview Content-Type: application/json api-key: [admin key]
إذا تلقيت رسالة خطأ تطلب منك زيارة
https://microsoft.com/devicelogin
، فافتح الصفحة وانسخ التعليمات البرمجية الجديدة.الصق التعليمات البرمجية في مربع الحوار.
شغل المفهرس يدويا مرة أخرى وتحقق من حالة المفهرس. هذه المرة، يجب أن يبدأ تشغيل المفهرس بنجاح.
فهرسة بيانات تعريف المستند
إذا كنت تقوم بفهرسة بيانات تعريف المستند ("dataToExtract": "contentAndMetadata"
)، فستتوفر بيانات التعريف التالية للفهرسة.
Identifier | النوع | الوصف |
---|---|---|
metadata_spo_site_library_item_id | Edm.String | المفتاح المختلط لمعرف الموقع ومعرف المكتبة ومعرف العنصر، والذي يعرف بشكل فريد عنصرا في مكتبة مستندات لموقع ما. |
metadata_spo_site_id | Edm.String | معرف موقع SharePoint. |
metadata_spo_library_id | Edm.String | معرف مكتبة المستندات. |
metadata_spo_item_id | Edm.String | معرف العنصر (المستند) في المكتبة. |
metadata_spo_item_last_modified | Edm.DateTimeOffset | آخر تاريخ/وقت تم تعديله (UTC) للعنصر. |
metadata_spo_item_name | Edm.String | اسم الصنف. |
metadata_spo_item_size | Edm.Int64 | حجم (بالبايت) للعنصر. |
metadata_spo_item_content_type | Edm.String | نوع محتوى العنصر. |
metadata_spo_item_extension | Edm.String | ملحق العنصر. |
metadata_spo_item_weburi | Edm.String | URI الخاص بالعنصر. |
metadata_spo_item_path | Edm.String | تركيبة المسار الأصل واسم العنصر. |
كما يدعم مفهرس SharePoint Online بيانات التعريف الخاصة بكل نوع مستند. يمكن العثور على مزيد من المعلومات في خصائص بيانات تعريف المحتوى المستخدمة في Azure الذكاء الاصطناعي Search.
إشعار
لفهرسة بيانات التعريف المخصصة، يجب تحديد "additionalColumns" في معلمة الاستعلام لمصدر البيانات.
تضمين أو استبعاد حسب نوع الملف
يمكنك التحكم في الملفات التي تتم فهرستها عن طريق تعيين معايير التضمين والاستبعاد في قسم "المعلمات" من تعريف المفهرس.
قم بتضمين ملحقات ملفات معينة عن طريق الإعداد "indexedFileNameExtensions"
إلى قائمة مفصولة بفواصل من ملحقات الملفات (مع نقطة بادئة). استبعاد ملحقات ملفات معينة عن طريق تعيين "excludedFileNameExtensions"
إلى الملحقات التي يجب تخطيها. إذا كان الملحق نفسه في كلتا القائمتين، يتم استبعاده من الفهرسة.
PUT /indexers/[indexer name]?api-version=2020-06-30
{
"parameters" : {
"configuration" : {
"indexedFileNameExtensions" : ".pdf, .docx",
"excludedFileNameExtensions" : ".png, .jpeg"
}
}
}
التحكم في المستندات التي تتم فهرستها
يمكن لمفهرس SharePoint Online واحد فهرسة المحتوى من مكتبة مستندات واحدة أو أكثر. استخدم المعلمة "حاوية" في تعريف مصدر البيانات للإشارة إلى المواقع ومكتبات المستندات التي يجب الفهرسة منها.
يحتوي قسم "الحاوية" لمصدر البيانات على خاصيتين لهذه المهمة: "الاسم" و"الاستعلام".
الاسم
خاصية "الاسم" مطلوبة ويجب أن تكون واحدة من ثلاث قيم:
قيمة | الوصف |
---|---|
defaultSiteLibrary | فهرسة كافة المحتويات من مكتبة المستندات الافتراضية للموقع. |
allSiteLibraries | فهرسة كل المحتويات من كل مكتبات المستندات في موقع. مكتبات المستندات من موقع فرعي خارج النطاق/ إذا كنت بحاجة إلى محتوى من مواقع فرعية، فاختر "useQuery" وحدد "includeLibrariesInSite". |
استخدام الاستعلام | فهرسة المحتوى المحدد في "الاستعلام" فقط. |
الاستعلام
تتكون معلمة "الاستعلام" لمصدر البيانات من أزواج الكلمة الأساسية/القيمة. فيما يلي الكلمات الأساسية التي يمكن استخدامها. القيم هي إما عناوين URL للموقع أو عناوين URL لمكتبة المستندات.
إشعار
للحصول على قيمة كلمة أساسية معينة، نوصي بالانتقال إلى مكتبة المستندات التي تحاول تضمينها/استبعادها ونسخ URI من المستعرض. هذه هي أسهل طريقة للحصول على القيمة لاستخدامها مع كلمة أساسية في الاستعلام.
كلمة أساسية | وصف القيمة والأمثلة |
---|---|
قيمة فارغة | إذا كانت خالية أو فارغة، فهرس مكتبة المستندات الافتراضية أو جميع مكتبات المستندات استنادا إلى اسم الحاوية. مثال: "container" : { "name" : "defaultSiteLibrary", "query" : null } |
includeLibrariesInSite | فهرسة المحتوى من كافة المكتبات ضمن الموقع المحدد في سلسلة الاتصال. يتضمن النطاق أي مواقع فرعية لموقعك. يجب أن تكون القيمة URI للموقع أو الموقع الفرعي. مثال: "container" : { "name" : "useQuery", "query" : "includeLibrariesInSite=https://mycompany.sharepoint.com/mysite" } |
includeLibrary | فهرسة كافة المحتويات من هذه المكتبة. القيمة هي المسار المؤهل بالكامل إلى المكتبة، والتي يمكن نسخها من المستعرض الخاص بك: مثال 1 (مسار مؤهل بالكامل): "container" : { "name" : "useQuery", "query" : "includeLibrary=https://mycompany.sharepoint.com/mysite/MyDocumentLibrary" } مثال 2 (URI تم نسخه من المستعرض): "container" : { "name" : "useQuery", "query" : "includeLibrary=https://mycompany.sharepoint.com/teams/mysite/MyDocumentLibrary/Forms/AllItems.aspx" } |
excludeLibrary | لا تقم بفهرسة المحتوى من هذه المكتبة. القيمة هي المسار المؤهل بالكامل إلى المكتبة، والتي يمكن نسخها من المستعرض الخاص بك: مثال 1 (مسار مؤهل بالكامل): "container" : { "name" : "useQuery", "query" : "includeLibrariesInSite=https://mysite.sharepoint.com/subsite1; excludeLibrary=https://mysite.sharepoint.com/subsite1/MyDocumentLibrary" } مثال 2 (URI تم نسخه من المستعرض): "container" : { "name" : "useQuery", "query" : "includeLibrariesInSite=https://mycompany.sharepoint.com/teams/mysite; excludeLibrary=https://mycompany.sharepoint.com/teams/mysite/MyDocumentLibrary/Forms/AllItems.aspx" } |
additionalColumns | فهرسة الأعمدة من مكتبة المستندات. القيمة هي قائمة مفصولة بفواصل بأسماء الأعمدة التي تريد فهرستها. استخدم شرطة مائلة عكسية مزدوجة للهروب من الفواصل المنقوشة والفواصل في أسماء الأعمدة: مثال 1 (additionalColumns=MyCustomColumn,MyCustomColumn2): "container" : { "name" : "useQuery", "query" : "includeLibrary=https://mycompany.sharepoint.com/mysite/MyDocumentLibrary;additionalColumns=MyCustomColumn,MyCustomColumn2" } مثال 2 (أحرف إلغاء باستخدام شرطة مائلة مزدوجة): "container" : { "name" : "useQuery", "query" : "includeLibrary=https://mycompany.sharepoint.com/teams/mysite/MyDocumentLibrary/Forms/AllItems.aspx;additionalColumns=MyCustomColumnWith\\,,MyCustomColumnWith\\;" } |
معالجة الأخطاء
بشكل افتراضي، يتوقف مفهرس SharePoint Online بمجرد أن يواجه مستندا بنوع محتوى غير معتمد (على سبيل المثال، صورة). يمكنك استخدام المعلمة excludedFileNameExtensions
لتخطي أنواع محتوى معينة. ومع ذلك، قد تحتاج إلى فهرسة المستندات دون معرفة جميع أنواع المحتويات المحتملة مسبقا. لمتابعة الفهرسة عند مواجهة نوع محتوى غير معتمد، قم بتعيين معلمة failOnUnsupportedContentType
التكوين إلى خطأ:
PUT https://[service name].search.windows.net/indexers/[indexer name]?api-version=2023-10-01-Preview
Content-Type: application/json
api-key: [admin key]
{
... other parts of indexer definition
"parameters" : { "configuration" : { "failOnUnsupportedContentType" : false } }
}
بالنسبة لبعض المستندات، يتعذر على Azure الذكاء الاصطناعي Search تحديد نوع المحتوى، أو يتعذر عليه معالجة مستند من نوع محتوى معتمد بخلاف ذلك. لتجاهل وضع الفشل هذا، قم بتعيين معلمة failOnUnprocessableDocument
التكوين إلى false:
"parameters" : { "configuration" : { "failOnUnprocessableDocument" : false } }
يحد Azure الذكاء الاصطناعي Search من حجم المستندات المفهرسة. يتم توثيق هذه الحدود في حدود الخدمة في Azure الذكاء الاصطناعي Search. يتم التعامل مع المستندات ذات الحجم الزائد كأخطاء بشكل افتراضي. ومع ذلك، لا يزال بإمكانك فهرسة بيانات تعريف التخزين للمستندات ذات الحجم الزائد إذا قمت بتعيين indexStorageMetadataOnlyForOversizedDocuments
معلمة التكوين إلى true:
"parameters" : { "configuration" : { "indexStorageMetadataOnlyForOversizedDocuments" : true } }
يمكنك أيضا متابعة الفهرسة إذا حدثت أخطاء في أي وقت من المعالجة، إما أثناء تحليل المستندات أو أثناء إضافة مستندات إلى فهرس. لتجاهل عدد معين من الأخطاء، قم بتعيين maxFailedItems
معلمات التكوين و maxFailedItemsPerBatch
إلى القيم المطلوبة. على سبيل المثال:
{
... other parts of indexer definition
"parameters" : { "maxFailedItems" : 10, "maxFailedItemsPerBatch" : 10 }
}
إذا تم تمكين تشفير ملف على موقع SharePoint، فقد تتم مصادفة رسالة خطأ مشابهة للرسالة التالية:
Code: resourceModified Message: The resource has changed since the caller last read it; usually an eTag mismatch Inner error: Code: irmEncryptFailedToFindProtector
ستتضمن رسالة الخطأ أيضا معرف موقع SharePoint ومعرف محرك الأقراص ومعرف عنصر محرك الأقراص في النمط التالي: <sharepoint site id> :: <drive id> :: <drive item id>
. يمكن استخدام هذه المعلومات لتحديد العنصر الذي فشل في نهاية SharePoint. يمكن للمستخدم بعد ذلك إزالة التشفير من العنصر لحل المشكلة.