فهرسة البيانات من مكتبات مستندات SharePoint

هام

يتوفر دعم مفهرس SharePoint Online في المعاينة العامة. يتم تقديمه "كما هو"، ضمن شروط الاستخدام التكميلية ويتم دعمه بأفضل جهد فقط. لا يوصى بميزات المعاينة لأحمال عمل الإنتاج ولا يضمن توفرها بشكل عام.

تأكد من زيارة قسم القيود المعروفة قبل البدء.

لاستخدام هذه المعاينة، املأ هذا النموذج. لن تتلقى أي إشعار بالموافقة مباشرة بعد ذلك حيث يتم قبول أي طلب وصول تلقائيا بعد الإرسال. بعد تمكين الوصول، استخدم معاينة REST API (2023-10-01-Preview أو أحدث) لفهرسة المحتوى الخاص بك.

تشرح هذه المقالة كيفية تكوين مفهرس بحث لفهرسة المستندات المخزنة في مكتبات مستندات SharePoint للبحث عن النص الكامل في Azure الذكاء الاصطناعي Search. خطوات التكوين أولا، متبوعة بالسلوكيات والسيناريوهات

الدالات

المفهرس في Azure الذكاء الاصطناعي Search هو متتبع ارتباطات يستخرج بيانات وبيانات تعريف قابلة للبحث من مصدر بيانات. يتصل مفهرس SharePoint Online بموقع SharePoint الخاص بك ويفهرس المستندات من مكتبة مستندات واحدة أو أكثر. يوفر المفهرس الوظائف التالية:

  • فهرسة الملفات وبيانات التعريف من مكتبة مستندات واحدة أو أكثر.
  • الفهرسة بشكل متزايد، التقاط الملفات وبيانات التعريف الجديدة والمتغيرة فقط.
  • تم تضمين الكشف عن الحذف. يتم التقاط الحذف في مكتبة المستندات في تشغيل المفهرس التالي، ويتم إزالة المستند من الفهرس.
  • يتم استخراج النص والصور التي تمت تسويتها بشكل افتراضي من المستندات المفهرسة. اختياريا، يمكنك إضافة مجموعة مهارات لإثراء الذكاء الاصطناعي أعمق، مثل التعرف البصري على الحروف أو الترجمة النصية.

المتطلبات الأساسية

تنسيقات المستندات المعتمدة

يمكن لمفهرس SharePoint Online استخراج النص من تنسيقات المستندات التالية:

تحديد الخدمة واعتباراتها

فيما يلي قيود هذه الميزة:

  • فهرسة قوائم SharePoint غير معتمدة.

  • فهرسة SharePoint . محتوى موقع ASPX غير مدعوم.

  • ملفات دفتر ملاحظات OneNote غير معتمدة.

  • نقطة النهاية الخاصة غير مدعومة.

  • لا تؤدي إعادة تسمية مجلد SharePoint إلى تشغيل الفهرسة التزايدية. يتم التعامل مع المجلد الذي تمت إعادة تسميته كمحتوى جديد.

  • يدعم SharePoint نموذج تخويل متعدد المستويات يحدد الوصول لكل مستخدم على مستوى المستند. لا يسحب المفهرس هذه الأذونات إلى الفهرس، ولا يدعم Azure الذكاء الاصطناعي Search التخويل على مستوى المستند. عند فهرسة مستند من SharePoint إلى خدمة بحث، يتوفر المحتوى لأي شخص لديه حق الوصول للقراءة إلى الفهرس. إذا كنت تحتاج إلى أذونات على مستوى المستند، يجب مراعاة عوامل تصفية الأمان لاقتطاع النتائج وأتمتة نسخ الأذونات على مستوى الملف إلى حقل في الفهرس.

  • فهرسة الملفات المشفرة من قبل المستخدم، والملفات المحمية بإدارة حقوق المعلومات (IRM)، وملفات ZIP مع كلمات المرور أو محتوى مشفر مماثل غير مدعوم. لكي تتم معالجة المحتوى المشفر، يجب على المستخدم الذي له أذونات مناسبة للملف المحدد إزالة التشفير بحيث يمكن فهرسة العنصر وفقا لذلك عندما يقوم المفهرس بتشغيل التكرار المجدول التالي.

فيما يلي الاعتبارات عند استخدام هذه الميزة:

  • إذا كنت بحاجة إلى حل فهرسة محتوى SharePoint في بيئة إنتاج، ففكر في إنشاء موصل مخصص باستخدام SharePoint Webhooks، واستدعاء Microsoft Graph API لتصدير البيانات إلى حاوية Azure Blob، ثم استخدام مفهرس Azure blob للفهرسة المتزايدة.
  • إذا كان تكوين SharePoint يسمح لعمليات Microsoft 365 بتحديث بيانات تعريف نظام ملفات SharePoint، فكن على دراية بأن هذه التحديثات يمكن أن تؤدي إلى تشغيل مفهرس SharePoint Online، مما يتسبب في استيعاب المفهرس للمستندات عدة مرات. نظرا لأن مفهرس SharePoint Online هو موصل تابع لجهة خارجية إلى Azure، فلا يمكن للمفهرس قراءة التكوين أو تغيير سلوكه. يستجيب للتغييرات في المحتوى الجديد والمتغير، بغض النظر عن كيفية إجراء هذه التحديثات. لهذا السبب، تأكد من اختبار الإعداد وفهم عدد معالجة المستندات قبل استخدام المفهرس وأي إثراء الذكاء الاصطناعي.

تكوين مفهرس SharePoint Online

لإعداد مفهرس SharePoint Online، استخدم كلا من مدخل Microsoft Azure وواجهة برمجة تطبيقات REST للمعاينة.

يوفر هذا القسم الخطوات. يمكنك أيضا مشاهدة الفيديو التالي.

الخطوة 1 (اختياري): تمكين الهوية المدارة المعينة من قبل النظام

تمكين هوية مدارة معينة من قبل النظام للكشف تلقائيا عن المستأجر الذي يتم توفير خدمة البحث فيه.

نفذ هذه الخطوة إذا كان موقع SharePoint في نفس المستأجر مثل خدمة البحث. تخطي هذه الخطوة إذا كان موقع SharePoint في مستأجر مختلف. لا يتم استخدام الهوية للفهرسة، فقط الكشف عن المستأجر. يمكنك أيضا تخطي هذه الخطوة إذا كنت تريد وضع معرف المستأجر في سلسلة الاتصال.

لقطة شاشة توضح كيفية تمكين الهوية المدارة المعينة من قبل النظام.

بعد تحديد حفظ، تحصل على معرف كائن تم تعيينه لخدمة البحث.

لقطة شاشة لمعرف الكائن.

الخطوة 2: تحديد الأذونات التي يتطلبها المفهرس

يدعم مفهرس SharePoint Online كلا من الأذونات المفوضة وأذونات التطبيق . اختر الأذونات التي تريد استخدامها استنادا إلى السيناريو الخاص بك.

نوصي بالأذونات المستندة إلى التطبيق. راجع القيود المفروضة على المشكلات المعروفة المتعلقة بالأذونات المفوضة.

  • أذونات التطبيق (مستحسن)، حيث يتم تشغيل المفهرس ضمن هوية مستأجر SharePoint مع إمكانية الوصول إلى جميع المواقع والملفات. يتطلب المفهرس سر العميل. سيحتاج المفهرس أيضا إلى موافقة مسؤول المستأجر قبل أن يتمكن من فهرسة أي محتوى.

  • الأذونات المفوضة، حيث يعمل المفهرس تحت هوية المستخدم أو التطبيق الذي يرسل الطلب. يقتصر الوصول إلى البيانات على المواقع والملفات التي يمكن للمتصل الوصول إليها. لدعم الأذونات المفوضة، يتطلب المفهرس مطالبة رمز الجهاز لتسجيل الدخول نيابة عن المستخدم. تفرض الأذونات المفوضة من قبل المستخدم انتهاء صلاحية الرمز المميز كل 75 دقيقة، وفقا لأحدث مكتبات الأمان المستخدمة لتنفيذ نوع المصادقة هذا. هذا ليس سلوكا يمكن تعديله. يتطلب الرمز المميز منتهية الصلاحية الفهرسة اليدوية باستخدام Run Indexer (معاينة). لهذا السبب، قد تحتاج إلى أذونات مستندة إلى التطبيق بدلا من ذلك.

إذا تم تمكين الوصول المشروط لمؤسسة Microsoft Entra ولم يتمكن المسؤول من منح أي وصول إلى الجهاز للأذونات المفوضة، فيجب مراعاة الأذونات المستندة إلى التطبيق بدلا من ذلك. لمزيد من المعلومات، راجع نهج الوصول المشروط ل Microsoft Entra.

الخطوة 3: إنشاء تسجيل تطبيق Microsoft Entra

يستخدم مفهرس SharePoint Online تطبيق Microsoft Entra هذا للمصادقة.

  1. قم بتسجيل الدخول إلى بوابة Azure.

  2. ابحث عن معرف Microsoft Entra أو انتقل إليه، ثم حدد تسجيلات التطبيقات.

  3. حدد + تسجيل جديد:

    1. أدخل اسما لتطبيقك.
    2. حدد مستأجر واحد.
    3. تخطي خطوة تعيين URI. لا يلزم إعادة توجيه URI.
    4. حدد تسجيل.
  4. على اليسار، حدد أذونات واجهة برمجة التطبيقات، ثم إضافة إذن، ثم Microsoft Graph.

    • إذا كان المفهرس يستخدم أذونات واجهة برمجة تطبيقات التطبيق، فحدد أذونات التطبيق وأضف ما يلي:

      • التطبيق - Files.Read.All
      • التطبيق - Sites.Read.All

      لقطة شاشة لأذونات واجهة برمجة التطبيقات للتطبيق.

      يعني استخدام أذونات التطبيق أن المفهرس يصل إلى موقع SharePoint في سياق خدمة. لذلك عند تشغيل المفهرس، سيكون لديه حق الوصول إلى جميع المحتويات في مستأجر SharePoint، مما يتطلب موافقة مسؤول المستأجر. مطلوب أيضا سر العميل للمصادقة. يتم وصف إعداد سر العميل لاحقا في هذه المقالة.

    • إذا كان المفهرس يستخدم أذونات واجهة برمجة التطبيقات المفوضة، فحدد الأذونات المفوضة وأضف ما يلي:

      • مفوض - Files.Read.All
      • مفوض - Sites.Read.All
      • مفوض - User.Read

      لقطة شاشة تعرض أذونات واجهة برمجة التطبيقات المفوضة.

      تسمح الأذونات المفوضة لعميل البحث بالاتصال ب SharePoint ضمن هوية الأمان للمستخدم الحالي.

  5. منح موافقة المسؤول.

    موافقة مسؤول المستأجر مطلوبة عند استخدام أذونات واجهة برمجة تطبيقات التطبيق. يتم تأمين بعض المستأجرين بطريقة تتطلب موافقة مسؤول المستأجر لأذونات واجهة برمجة التطبيقات المفوضة أيضا. إذا تم تطبيق أي من هذين الشرطين، فستحتاج إلى الحصول على موافقة مسؤول مستأجر على تطبيق Microsoft Entra هذا قبل إنشاء المفهرس.

    لقطة شاشة تعرض موافقة المسؤول على منح تطبيق Microsoft Entra.

  6. حدد علامة التبويب مصادقة.

  7. قم بتعيين Allow public client flows إلى Yes ثم حدد Save.

  8. حدد + إضافة نظام أساسي، ثم تطبيقات الجوال وسطح المكتب، ثم حدد https://login.microsoftonline.com/common/oauth2/nativeclient، ثم تكوين.

    لقطة شاشة تعرض تكوين مصادقة تطبيق Microsoft Entra.

  9. (أذونات واجهة برمجة تطبيقات التطبيق فقط) للمصادقة على تطبيق Microsoft Entra باستخدام أذونات التطبيق، يتطلب المفهرس سر العميل.

    • حدد Certificates & Secrets من القائمة على اليسار، ثم Client secrets، ثم New client secret.

      لقطة شاشة تعرض سر العميل الجديد.

    • في القائمة المنبثقة، أدخل وصفا لسر العميل الجديد. اضبط تاريخ انتهاء الصلاحية إذا لزم الأمر. إذا انتهت صلاحية البيانات السرية، فيجب إعادة إنشائها ويجب تحديث المفهرس بالسر الجديد.

      لقطة شاشة توضح كيفية إعداد سر العميل.

    • يظهر سر العميل الجديد في القائمة السرية. بمجرد التنقل بعيدا عن الصفحة، لن يكون السر مرئيا، لذا انسخه باستخدام زر النسخ واحفظه في موقع آمن.

      لقطة شاشة توضح مكان نسخ سر العميل.

الخطوة 4: إنشاء مصدر بيانات

هام

بدءا من هذا القسم، استخدم واجهة برمجة تطبيقات REST للمعاينة للخطوات المتبقية. نوصي بأحدث واجهة برمجة تطبيقات للمعاينة، 2023-10-01-preview. إذا لم تكن على دراية بواجهة برمجة تطبيقات Azure الذكاء الاصطناعي Search REST، نقترح إلقاء نظرة على هذا التشغيل السريع.

يحدد مصدر البيانات البيانات التي يجب فهرستها وبيانات الاعتماد والنهج لتحديد التغييرات في البيانات بكفاءة (الصفوف الجديدة أو المعدلة أو المحذوفة). يمكن استخدام مصدر بيانات من قبل مفهرسات متعددة في نفس خدمة البحث.

بالنسبة إلى فهرسة SharePoint، يجب أن يحتوي مصدر البيانات على الخصائص المطلوبة التالية:

  • الاسم هو الاسم الفريد لمصدر البيانات داخل خدمة البحث.
  • يجب أن يكون النوع "sharepoint". هذه القيمة حساسة لحالة الأحرف.
  • توفر بيانات الاعتماد نقطة نهاية SharePoint ومعرف تطبيق Microsoft Entra (العميل). مثال على نقطة نهاية SharePoint هو https://microsoft.sharepoint.com/teams/MySharePointSite. يمكنك الحصول على نقطة النهاية بالانتقال إلى الصفحة الرئيسية لموقع SharePoint ونسخ عنوان URL من المستعرض.
  • تحدد الحاوية مكتبة المستندات التي يجب فهرستها. تتحكم الخصائص في المستندات التي تتم فهرستها.

لإنشاء مصدر بيانات، اتصل بإنشاء مصدر بيانات (معاينة).

POST https://[service name].search.windows.net/datasources?api-version=2023-10-01-Preview
Content-Type: application/json
api-key: [admin key]

{
    "name" : "sharepoint-datasource",
    "type" : "sharepoint",
    "credentials" : { "connectionString" : "[connection-string]" },
    "container" : { "name" : "defaultSiteLibrary", "query" : null }
}

تنسيق سلسلة الاتصال ion

يتغير تنسيق سلسلة الاتصال استنادا إلى ما إذا كان المفهرس يستخدم أذونات واجهة برمجة التطبيقات المفوضة أو أذونات واجهة برمجة تطبيقات التطبيق

  • تنسيق سلسلة الاتصال أذونات واجهة برمجة التطبيقات المفوضة

    SharePointOnlineEndpoint=[SharePoint site url];ApplicationId=[Azure AD App ID];TenantId=[SharePoint site tenant id]

  • تنسيق سلسلة الاتصال أذونات واجهة برمجة تطبيقات التطبيق

    SharePointOnlineEndpoint=[SharePoint site url];ApplicationId=[Azure AD App ID];ApplicationSecret=[Azure AD App client secret];TenantId=[SharePoint site tenant id]

إشعار

إذا كان موقع SharePoint في نفس المستأجر مثل خدمة البحث وتم تمكين الهوية المدارة المعينة من قبل النظام، TenantId فلا يلزم تضمينه في سلسلة الاتصال. إذا كان موقع SharePoint في مستأجر مختلف عن خدمة البحث، TenantId فيجب تضمينه.

الخطوة 5: إنشاء فهرس

يحدد الفهرس الحقول في مستند وسمات وبنيات أخرى تشكل تجربة البحث.

لإنشاء فهرس، اتصل بإنشاء فهرس (معاينة):

POST https://[service name].search.windows.net/indexes?api-version=2023-10-01-Preview
Content-Type: application/json
api-key: [admin key]

{
    "name" : "sharepoint-index",
    "fields": [
        { "name": "id", "type": "Edm.String", "key": true, "searchable": false },
        { "name": "metadata_spo_item_name", "type": "Edm.String", "key": false, "searchable": true, "filterable": false, "sortable": false, "facetable": false },
        { "name": "metadata_spo_item_path", "type": "Edm.String", "key": false, "searchable": false, "filterable": false, "sortable": false, "facetable": false },
        { "name": "metadata_spo_item_content_type", "type": "Edm.String", "key": false, "searchable": false, "filterable": true, "sortable": false, "facetable": true },
        { "name": "metadata_spo_item_last_modified", "type": "Edm.DateTimeOffset", "key": false, "searchable": false, "filterable": false, "sortable": true, "facetable": false },
        { "name": "metadata_spo_item_size", "type": "Edm.Int64", "key": false, "searchable": false, "filterable": false, "sortable": false, "facetable": false },
        { "name": "content", "type": "Edm.String", "searchable": true, "filterable": false, "sortable": false, "facetable": false }
    ]
}

هام

metadata_spo_site_library_item_id يمكن استخدام فقط ك حقل مفتاح في فهرس يتم ملؤه بواسطة مفهرس SharePoint Online. إذا لم يكن حقل المفتاح موجودا في مصدر البيانات، metadata_spo_site_library_item_id يتم تعيينه تلقائيا إلى حقل المفتاح.

الخطوة 6: إنشاء مفهرس

يقوم المفهرس بتوصيل مصدر بيانات بفهرس بحث هدف ويوفر جدولا لأتمتة تحديث البيانات. بمجرد إنشاء الفهرس ومصدر البيانات، يمكنك إنشاء المفهرس.

أثناء هذه الخطوة، يطلب منك تسجيل الدخول باستخدام بيانات اعتماد المؤسسة التي لديها حق الوصول إلى موقع SharePoint. إذا كان ذلك ممكنا، نوصي بإنشاء حساب مستخدم تنظيمي جديد ومنح هذا المستخدم الجديد الأذونات الدقيقة التي تريد أن يمتلكها المفهرس.

هناك بعض الخطوات لإنشاء المفهرس:

  1. إرسال طلب إنشاء مفهرس (معاينة):

    POST https://[service name].search.windows.net/indexers?api-version=2023-10-01-Preview
    Content-Type: application/json
    api-key: [admin key]
    
    {
        "name" : "sharepoint-indexer",
        "dataSourceName" : "sharepoint-datasource",
        "targetIndexName" : "sharepoint-index",
        "parameters": {
        "batchSize": null,
        "maxFailedItems": null,
        "maxFailedItemsPerBatch": null,
        "base64EncodeKeys": null,
        "configuration": {
            "indexedFileNameExtensions" : ".pdf, .docx",
            "excludedFileNameExtensions" : ".png, .jpg",
            "dataToExtract": "contentAndMetadata"
          }
        },
        "schedule" : { },
        "fieldMappings" : [
            { 
              "sourceFieldName" : "metadata_spo_site_library_item_id", 
              "targetFieldName" : "id", 
              "mappingFunction" : { 
                "name" : "base64Encode" 
              } 
             }
        ]
    }
    
  2. عند إنشاء المفهرس للمرة الأولى، ينتظر طلب إنشاء مفهرس (معاينة) حتى تكمل الخطوة التالية. يجب عليك استدعاء الحصول على حالة المفهرس للحصول على الارتباط وإدخال رمز الجهاز الجديد.

    GET https://[service name].search.windows.net/indexers/sharepoint-indexer/status?api-version=2023-10-01-Preview
    Content-Type: application/json
    api-key: [admin key]
    

    إذا لم تقم بتشغيل الحصول على حالة المفهرس في غضون 10 دقائق، تنتهي صلاحية التعليمات البرمجية وستحتاج إلى إعادة إنشاء مصدر البيانات.

  3. انسخ رمز تسجيل دخول الجهاز من استجابة الحصول على حالة المفهرس. يمكن العثور على تسجيل دخول الجهاز في "errorMessage".

    {
        "lastResult": {
            "status": "transientFailure",
            "errorMessage": "To sign in, use a web browser to open the page https://microsoft.com/devicelogin and enter the code <CODE> to authenticate."
        }
    }
    
  4. قم بتوفير التعليمات البرمجية التي تم تضمينها في رسالة الخطأ.

    لقطة شاشة توضح كيفية إدخال رمز الجهاز.

  5. سيقوم مفهرس SharePoint Online بالوصول إلى محتوى SharePoint كمستخدم سجل الدخول. سيكون المستخدم الذي يسجل الدخول أثناء هذه الخطوة هو المستخدم الذي قام بتسجيل الدخول. لذلك، إذا قمت بتسجيل الدخول باستخدام حساب مستخدم ليس لديه حق الوصول إلى مستند في مكتبة المستندات التي تريد فهرستها، فلن يتمكن المفهرس من الوصول إلى هذا المستند.

    إذا كان ذلك ممكنا، نوصي بإنشاء حساب مستخدم جديد ومنح هذا المستخدم الجديد الأذونات الدقيقة التي تريد أن يمتلكها المفهرس.

  6. الموافقة على الأذونات المطلوبة.

    لقطة شاشة توضح كيفية الموافقة على أذونات واجهة برمجة التطبيقات.

  7. يكتمل الطلب الأولي إنشاء مفهرس (معاينة) إذا كانت جميع الأذونات المقدمة أعلاه صحيحة وضمن الإطار الزمني البالغ 10 دقائق.

إشعار

إذا كان تطبيق Microsoft Entra يتطلب موافقة المسؤول ولم تتم الموافقة عليه قبل تسجيل الدخول، فقد ترى الشاشة التالية. مسؤول الموافقة مطلوبة للمتابعة. لقطة شاشة تعرض موافقة المسؤول المطلوبة.

الخطوة 7: تحقق من حالة المفهرس

بعد إنشاء المفهرس، يمكنك استدعاء الحصول على حالة المفهرس:

GET https://[service name].search.windows.net/indexers/sharepoint-indexer/status?api-version=2023-10-01-Preview
Content-Type: application/json
api-key: [admin key]

تحديث مصدر البيانات

إذا لم تكن هناك تحديثات لكائن مصدر البيانات، يتم تشغيل المفهرس على جدول زمني دون أي تفاعل من المستخدم.

ومع ذلك، إذا قمت بتعديل كائن مصدر البيانات أثناء انتهاء صلاحية رمز الجهاز، يجب تسجيل الدخول مرة أخرى لتشغيل المفهرس. على سبيل المثال، إذا قمت بتغيير استعلام مصدر البيانات، فقم بتسجيل الدخول مرة أخرى باستخدام https://microsoft.com/devicelogin والحصول على رمز الجهاز الجديد.

فيما يلي خطوات تحديث مصدر بيانات، بافتراض وجود رمز جهاز منتهية الصلاحية:

  1. استدعاء مفهرس التشغيل (معاينة) لبدء تنفيذ المفهرس يدويا.

    POST https://[service name].search.windows.net/indexers/sharepoint-indexer/run?api-version=2023-10-01-Preview  
    Content-Type: application/json
    api-key: [admin key]
    
  2. تحقق من حالة المفهرس.

    GET https://[service name].search.windows.net/indexers/sharepoint-indexer/status?api-version=2023-10-01-Preview
    Content-Type: application/json
    api-key: [admin key]
    
  3. إذا تلقيت رسالة خطأ تطلب منك زيارة https://microsoft.com/devicelogin، فافتح الصفحة وانسخ التعليمات البرمجية الجديدة.

  4. الصق التعليمات البرمجية في مربع الحوار.

  5. شغل المفهرس يدويا مرة أخرى وتحقق من حالة المفهرس. هذه المرة، يجب أن يبدأ تشغيل المفهرس بنجاح.

فهرسة بيانات تعريف المستند

إذا كنت تقوم بفهرسة بيانات تعريف المستند ("dataToExtract": "contentAndMetadata")، فستتوفر بيانات التعريف التالية للفهرسة.

Identifier النوع ‏‏الوصف
metadata_spo_site_library_item_id Edm.String المفتاح المختلط لمعرف الموقع ومعرف المكتبة ومعرف العنصر، والذي يعرف بشكل فريد عنصرا في مكتبة مستندات لموقع ما.
metadata_spo_site_id Edm.String معرف موقع SharePoint.
metadata_spo_library_id Edm.String معرف مكتبة المستندات.
metadata_spo_item_id Edm.String معرف العنصر (المستند) في المكتبة.
metadata_spo_item_last_modified Edm.DateTimeOffset آخر تاريخ/وقت تم تعديله (UTC) للعنصر.
metadata_spo_item_name Edm.String اسم الصنف.
metadata_spo_item_size Edm.Int64 حجم (بالبايت) للعنصر.
metadata_spo_item_content_type Edm.String نوع محتوى العنصر.
metadata_spo_item_extension Edm.String ملحق العنصر.
metadata_spo_item_weburi Edm.String URI الخاص بالعنصر.
metadata_spo_item_path Edm.String تركيبة المسار الأصل واسم العنصر.

كما يدعم مفهرس SharePoint Online بيانات التعريف الخاصة بكل نوع مستند. يمكن العثور على مزيد من المعلومات في خصائص بيانات تعريف المحتوى المستخدمة في Azure الذكاء الاصطناعي Search.

إشعار

لفهرسة بيانات التعريف المخصصة، يجب تحديد "additionalColumns" في معلمة الاستعلام لمصدر البيانات.

تضمين أو استبعاد حسب نوع الملف

يمكنك التحكم في الملفات التي تتم فهرستها عن طريق تعيين معايير التضمين والاستبعاد في قسم "المعلمات" من تعريف المفهرس.

قم بتضمين ملحقات ملفات معينة عن طريق الإعداد "indexedFileNameExtensions" إلى قائمة مفصولة بفواصل من ملحقات الملفات (مع نقطة بادئة). استبعاد ملحقات ملفات معينة عن طريق تعيين "excludedFileNameExtensions" إلى الملحقات التي يجب تخطيها. إذا كان الملحق نفسه في كلتا القائمتين، يتم استبعاده من الفهرسة.

PUT /indexers/[indexer name]?api-version=2020-06-30
{
    "parameters" : { 
        "configuration" : { 
            "indexedFileNameExtensions" : ".pdf, .docx",
            "excludedFileNameExtensions" : ".png, .jpeg" 
        } 
    }
}

التحكم في المستندات التي تتم فهرستها

يمكن لمفهرس SharePoint Online واحد فهرسة المحتوى من مكتبة مستندات واحدة أو أكثر. استخدم المعلمة "حاوية" في تعريف مصدر البيانات للإشارة إلى المواقع ومكتبات المستندات التي يجب الفهرسة منها.

يحتوي قسم "الحاوية" لمصدر البيانات على خاصيتين لهذه المهمة: "الاسم" و"الاستعلام".

الاسم

خاصية "الاسم" مطلوبة ويجب أن تكون واحدة من ثلاث قيم:

قيمة ‏‏الوصف
defaultSiteLibrary فهرسة كافة المحتويات من مكتبة المستندات الافتراضية للموقع.
allSiteLibraries فهرسة كل المحتويات من كل مكتبات المستندات في موقع. مكتبات المستندات من موقع فرعي خارج النطاق/ إذا كنت بحاجة إلى محتوى من مواقع فرعية، فاختر "useQuery" وحدد "includeLibrariesInSite".
استخدام الاستعلام فهرسة المحتوى المحدد في "الاستعلام" فقط.

الاستعلام

تتكون معلمة "الاستعلام" لمصدر البيانات من أزواج الكلمة الأساسية/القيمة. فيما يلي الكلمات الأساسية التي يمكن استخدامها. القيم هي إما عناوين URL للموقع أو عناوين URL لمكتبة المستندات.

إشعار

للحصول على قيمة كلمة أساسية معينة، نوصي بالانتقال إلى مكتبة المستندات التي تحاول تضمينها/استبعادها ونسخ URI من المستعرض. هذه هي أسهل طريقة للحصول على القيمة لاستخدامها مع كلمة أساسية في الاستعلام.

كلمة أساسية وصف القيمة والأمثلة
قيمة فارغة إذا كانت خالية أو فارغة، فهرس مكتبة المستندات الافتراضية أو جميع مكتبات المستندات استنادا إلى اسم الحاوية.

مثال:

"container" : { "name" : "defaultSiteLibrary", "query" : null }
includeLibrariesInSite فهرسة المحتوى من كافة المكتبات ضمن الموقع المحدد في سلسلة الاتصال. يتضمن النطاق أي مواقع فرعية لموقعك. يجب أن تكون القيمة URI للموقع أو الموقع الفرعي.

مثال:

"container" : { "name" : "useQuery", "query" : "includeLibrariesInSite=https://mycompany.sharepoint.com/mysite" }
includeLibrary فهرسة كافة المحتويات من هذه المكتبة. القيمة هي المسار المؤهل بالكامل إلى المكتبة، والتي يمكن نسخها من المستعرض الخاص بك:

مثال 1 (مسار مؤهل بالكامل):

"container" : { "name" : "useQuery", "query" : "includeLibrary=https://mycompany.sharepoint.com/mysite/MyDocumentLibrary" }

مثال 2 (URI تم نسخه من المستعرض):

"container" : { "name" : "useQuery", "query" : "includeLibrary=https://mycompany.sharepoint.com/teams/mysite/MyDocumentLibrary/Forms/AllItems.aspx" }
excludeLibrary لا تقم بفهرسة المحتوى من هذه المكتبة. القيمة هي المسار المؤهل بالكامل إلى المكتبة، والتي يمكن نسخها من المستعرض الخاص بك:

مثال 1 (مسار مؤهل بالكامل):

"container" : { "name" : "useQuery", "query" : "includeLibrariesInSite=https://mysite.sharepoint.com/subsite1; excludeLibrary=https://mysite.sharepoint.com/subsite1/MyDocumentLibrary" }

مثال 2 (URI تم نسخه من المستعرض):

"container" : { "name" : "useQuery", "query" : "includeLibrariesInSite=https://mycompany.sharepoint.com/teams/mysite; excludeLibrary=https://mycompany.sharepoint.com/teams/mysite/MyDocumentLibrary/Forms/AllItems.aspx" }
additionalColumns فهرسة الأعمدة من مكتبة المستندات. القيمة هي قائمة مفصولة بفواصل بأسماء الأعمدة التي تريد فهرستها. استخدم شرطة مائلة عكسية مزدوجة للهروب من الفواصل المنقوشة والفواصل في أسماء الأعمدة:

مثال 1 (additionalColumns=MyCustomColumn,MyCustomColumn2):

"container" : { "name" : "useQuery", "query" : "includeLibrary=https://mycompany.sharepoint.com/mysite/MyDocumentLibrary;additionalColumns=MyCustomColumn,MyCustomColumn2" }

مثال 2 (أحرف إلغاء باستخدام شرطة مائلة مزدوجة):

"container" : { "name" : "useQuery", "query" : "includeLibrary=https://mycompany.sharepoint.com/teams/mysite/MyDocumentLibrary/Forms/AllItems.aspx;additionalColumns=MyCustomColumnWith\\,,MyCustomColumnWith\\;" }

معالجة الأخطاء

بشكل افتراضي، يتوقف مفهرس SharePoint Online بمجرد أن يواجه مستندا بنوع محتوى غير معتمد (على سبيل المثال، صورة). يمكنك استخدام المعلمة excludedFileNameExtensions لتخطي أنواع محتوى معينة. ومع ذلك، قد تحتاج إلى فهرسة المستندات دون معرفة جميع أنواع المحتويات المحتملة مسبقا. لمتابعة الفهرسة عند مواجهة نوع محتوى غير معتمد، قم بتعيين معلمة failOnUnsupportedContentType التكوين إلى خطأ:

PUT https://[service name].search.windows.net/indexers/[indexer name]?api-version=2023-10-01-Preview
Content-Type: application/json
api-key: [admin key]

{
    ... other parts of indexer definition
    "parameters" : { "configuration" : { "failOnUnsupportedContentType" : false } }
}

بالنسبة لبعض المستندات، يتعذر على Azure الذكاء الاصطناعي Search تحديد نوع المحتوى، أو يتعذر عليه معالجة مستند من نوع محتوى معتمد بخلاف ذلك. لتجاهل وضع الفشل هذا، قم بتعيين معلمة failOnUnprocessableDocument التكوين إلى false:

"parameters" : { "configuration" : { "failOnUnprocessableDocument" : false } }

يحد Azure الذكاء الاصطناعي Search من حجم المستندات المفهرسة. يتم توثيق هذه الحدود في حدود الخدمة في Azure الذكاء الاصطناعي Search. يتم التعامل مع المستندات ذات الحجم الزائد كأخطاء بشكل افتراضي. ومع ذلك، لا يزال بإمكانك فهرسة بيانات تعريف التخزين للمستندات ذات الحجم الزائد إذا قمت بتعيين indexStorageMetadataOnlyForOversizedDocuments معلمة التكوين إلى true:

"parameters" : { "configuration" : { "indexStorageMetadataOnlyForOversizedDocuments" : true } }

يمكنك أيضا متابعة الفهرسة إذا حدثت أخطاء في أي وقت من المعالجة، إما أثناء تحليل المستندات أو أثناء إضافة مستندات إلى فهرس. لتجاهل عدد معين من الأخطاء، قم بتعيين maxFailedItems معلمات التكوين و maxFailedItemsPerBatch إلى القيم المطلوبة. على سبيل المثال:

{
    ... other parts of indexer definition
    "parameters" : { "maxFailedItems" : 10, "maxFailedItemsPerBatch" : 10 }
}

إذا تم تمكين تشفير ملف على موقع SharePoint، فقد تتم مصادفة رسالة خطأ مشابهة للرسالة التالية:

Code: resourceModified Message: The resource has changed since the caller last read it; usually an eTag mismatch Inner error: Code: irmEncryptFailedToFindProtector

ستتضمن رسالة الخطأ أيضا معرف موقع SharePoint ومعرف محرك الأقراص ومعرف عنصر محرك الأقراص في النمط التالي: <sharepoint site id> :: <drive id> :: <drive item id>. يمكن استخدام هذه المعلومات لتحديد العنصر الذي فشل في نهاية SharePoint. يمكن للمستخدم بعد ذلك إزالة التشفير من العنصر لحل المشكلة.

(راجع أيضًا )