تمكين التخزين المؤقت للإثراء المتزايد في Azure الذكاء الاصطناعي Search

هام

هذه الميزة في المعاينة العامة ضمن شروط الاستخدام التكميلية. تدعم واجهة برمجة تطبيقات REST للمعاينة هذه الميزة.

توضح هذه المقالة كيفية إضافة التخزين المؤقت إلى مسار الإثراء بحيث يمكنك تعديل خطوات إثراء انتقال البيانات من الخادم دون الحاجة إلى إعادة البناء بالكامل في كل مرة. بشكل افتراضي، مجموعة المهارات عديمة الحالة، ويتطلب تغيير أي جزء من تكوينها إعادة تشغيل كاملة للمفهرس. باستخدام ذاكرة التخزين المؤقت للإثراء، يمكن للمفهرس تحديد أجزاء شجرة المستند التي يجب تحديثها استنادا إلى التغييرات التي تم اكتشافها في مجموعة المهارات أو تعريفات المفهرس. يتم الاحتفاظ بالنتيجة المعالجة الحالية وإعادة استخدامها كلما أمكن ذلك.

يتم وضع المحتوى المخزن مؤقتا في Azure Storage باستخدام معلومات الحساب التي تقدمها. يتم إنشاء الحاوية، المسماة ms-az-search-indexercache-<alpha-numerc-string>، عند تشغيل المفهرس. يجب اعتباره مكونا داخليا تديره خدمة البحث ويجب ألا يتم تعديله.

المتطلبات الأساسية

يجب أن تكون على دراية بإعداد المفهرسات. ابدأ بنظرة عامة على المفهرس ثم تابع إلى مجموعات المهارات للتعرف على مسارات الإثراء. لمزيد من المعلومات حول المفاهيم الرئيسية، راجع الإثراء التزايدي.

تنبيه

إذا كنت تستخدم مفهرس SharePoint Online (معاينة)، فيجب تجنب الإثراء التزايدي. في ظروف معينة، تصبح ذاكرة التخزين المؤقت غير صالحة، مما يتطلب إعادة تعيين المفهرس وتشغيله، إذا اخترت إعادة تحميله.

تمكين على المفهرسات الجديدة

يمكنك استخدام مدخل Microsoft Azure أو معاينة واجهات برمجة التطبيقات أو إصدار بيتا من Azure SDKs مطلوبة لتمكين ذاكرة التخزين المؤقت للإثراء على مفهرس.

  1. على اليسار، حدد المفهرسات، ثم حدد إضافة مفهرس.

  2. توفير اسم مفهرس وفهرس موجود ومصدر بيانات ومجموعة مهارات.

  3. تمكين التخزين المؤقت التزايدي وتعيين حساب Azure Storage.

    لقطة شاشة لخيار المدخل لذاكرة التخزين المؤقت للإثراء.

تمكين على المفهرسات الموجودة

بالنسبة للمفهرسات الموجودة التي لديها مجموعة مهارات بالفعل، استخدم الخطوات التالية لإضافة التخزين المؤقت. كتشغيل لمرة واحدة، قم بإعادة تعيين المفهرس وإعادة تشغيله بالكامل لتحميل ذاكرة التخزين المؤقت.

الخطوة 1: الحصول على تعريف المفهرس

ابدأ بمفهرس عمل صالح يحتوي على هذه المكونات: مصدر البيانات ومجموعة المهارات والفهرس. باستخدام عميل API، أرسل طلب GET Indexer لاسترداد المفهرس. عند استخدام إصدار واجهة برمجة التطبيقات للمعاينة للحصول على المفهرس، تتم إضافة خاصية "ذاكرة التخزين المؤقت" المعينة إلى فارغة إلى التعريف تلقائيا.

GET https://[YOUR-SEARCH-SERVICE].search.windows.net/indexers/[YOUR-INDEXER-NAME]?api-version=2024-05-01-preview
    Content-Type: application/json
    api-key: [YOUR-ADMIN-KEY]

الخطوة 2: تعيين خاصية ذاكرة التخزين المؤقت

في تعريف الفهرس، قم بتعديل "ذاكرة التخزين المؤقت" لتضمين الخصائص المطلوبة والاختيارية التالية:

  • (مطلوب) storageConnectionString يجب تعيين إلى سلسلة الاتصال تخزين Azure.
  • (اختياري) enableReprocessing تشير الخاصية المنطقية (true افتراضيا)، إلى تمكين الإثراء التزايدي. اضبط على false إذا كنت تريد تعليق المعالجة التزايدية أثناء تنفيذ عمليات أخرى كثيفة الموارد، مثل فهرسة مستندات جديدة، ثم قم بالتبديل مرة أخرى إلى true وقت لاحق.
POST https://[service name].search.windows.net/indexers?api-version=2024-05-01-preview
    {
        "name": "<YOUR-INDEXER-NAME>",
        "targetIndexName": "<YOUR-INDEX-NAME>",
        "dataSourceName": "<YOUR-DATASOURCE-NAME>",
        "skillsetName": "<YOUR-SKILLSET-NAME>",
        "cache" : {
            "storageConnectionString" : "<YOUR-STORAGE-ACCOUNT-CONNECTION-STRING>",
            "enableReprocessing": true
        },
        "fieldMappings" : [],
        "outputFieldMappings": [],
        "parameters": []
    }

الخطوة 3: إعادة تعيين المفهرس

يلزم إعادة تعيين المفهرس عند إعداد الإثراء التزايدي للمفهرسات الموجودة للتأكد من أن جميع المستندات في حالة متناسقة. يمكنك استخدام المدخل أو عميل واجهة برمجة التطبيقات لهذه المهمة.

POST https://[YOUR-SEARCH-SERVICE].search.windows.net/indexers/[YOUR-INDEXER-NAME]/reset?api-version=2024-05-01-preview
    Content-Type: application/json
    api-key: [YOUR-ADMIN-KEY]

الخطوة 4: حفظ المفهرس

تحديث المفهرس بطلب PUT، حيث يتضمن نص الطلب "ذاكرة التخزين المؤقت".

PUT https://[YOUR-SEARCH-SERVICE].search.windows.net/indexers/[YOUR-INDEXER-NAME]?api-version=2024-05-01-preview
    Content-Type: application/json
    api-key: [YOUR-ADMIN-KEY]
    {
        "name" : "<YOUR-INDEXER-NAME>",
        ...
        "cache": {
            "storageConnectionString": "<YOUR-STORAGE-ACCOUNT-CONNECTION-STRING>",
            "enableReprocessing": true
        }
    }

إذا قمت الآن بإصدار طلب GET آخر على المفهرس، تتضمن الاستجابة من الخدمة خاصية ID في كائن ذاكرة التخزين المؤقت. يتم إلحاق السلسلة الأبجدية الرقمية باسم الحاوية التي تحتوي على جميع النتائج المخزنة مؤقتا والحالة المتوسطة لكل مستند تتم معالجته بواسطة هذا المفهرس. يتم استخدام المعرف لتسمية ذاكرة التخزين المؤقت بشكل فريد في تخزين Blob.

    "cache": {
        "ID": "<ALPHA-NUMERIC STRING>",
        "enableReprocessing": true,
        "storageConnectionString": "DefaultEndpointsProtocol=https;AccountName=<YOUR-STORAGE-ACCOUNT>;AccountKey=<YOUR-STORAGE-KEY>;EndpointSuffix=core.windows.net"
    }

الخطوة 5: تشغيل المفهرس

لتشغيل المفهرس، يمكنك استخدام المدخل أو واجهة برمجة التطبيقات. في المدخل، من قائمة المفهرسات، حدد المفهرس وحدد تشغيل. تتمثل إحدى مزايا استخدام المدخل في أنه يمكنك مراقبة حالة المفهرس، وملاحظة مدة المهمة، وعدد المستندات التي تتم معالجتها. يتم تحديث صفحات المدخل كل بضع دقائق.

بدلا من ذلك، يمكنك استخدام REST لتشغيل المفهرس:

POST https://[YOUR-SEARCH-SERVICE].search.windows.net/indexers/[YOUR-INDEXER-NAME]/run?api-version=2024-05-01-preview
Content-Type: application/json
api-key: [YOUR-ADMIN-KEY]

إشعار

تؤدي إعادة تعيين المفهرس وإعادة تشغيله إلى إعادة إنشاء كاملة بحيث يمكن تخزين المحتوى مؤقتا. ستتم إعادة تشغيل جميع عمليات الإثراء المعرفية على جميع الوثائق. تبدأ إعادة استخدام المحتوى الذي تم إثرائه من ذاكرة التخزين المؤقت بعد تحميل ذاكرة التخزين المؤقت.

التحقق من الإخراج المخزن مؤقتا

ابحث عن ذاكرة التخزين المؤقت في Azure Storage، ضمن حاوية Blob. اسم الحاوية هو ms-az-search-indexercache-<some-alphanumeric-string>.

يتم إنشاء ذاكرة تخزين مؤقت واستخدامها بواسطة مفهرس. محتواه غير قابل للقراءة من قبل الإنسان.

للتحقق مما إذا كانت ذاكرة التخزين المؤقت قيد التشغيل، قم بتعديل مجموعة المهارات وتشغيل المفهرس، ثم قارن مقاييس ما قبل وبعد وقت التنفيذ وعدد المستندات.

مجموعات المهارات التي تتضمن تحليل الصور والتعرف البصري على الحروف (OCR) للمستندات الممسوحة ضوئيا تجعل حالات الاختبار جيدة. إذا قمت بتعديل مهارة نص انتقال البيانات من الخادم أو أي مهارة غير مرتبطة بالصورة، يمكن للمفهرس استرداد كل محتوى الصورة و OCR الذي تمت معالجته مسبقا من ذاكرة التخزين المؤقت، وتحديث ومعالجة التغييرات المتعلقة بالنص التي تشير إليها عمليات التحرير فقط. يمكنك توقع رؤية مستندات أقل في عدد مستندات تنفيذ المفهرس وأوقات تنفيذ أقصر ورسوم أقل على الفاتورة.

مجموعة الملفات المستخدمة في البرامج التعليمية cog-search-demo هي حالة اختبار مفيدة لأنها تحتوي على 14 ملفا بتنسيقات مختلفة JPG وPNG و HTML و DOCX و PPTX وأنواع أخرى. قم بالتغيير en إلى es أو لغة أخرى في مهارة الترجمة النصية لاختبار إثبات المفهوم للإثراء المتزايد.

الأخطاء الشائعة

يحدث الخطأ التالي إذا نسيت تحديد إصدار واجهة برمجة تطبيقات معاينة على الطلب:

"The request is invalid. Details: indexer : A resource without a type name was found, but no expected type was specified. To allow entries without type information, the expected type must also be specified when the model is specified."

سيحدث خطأ 400 Bad Request أيضا إذا كنت تفتقد إلى متطلبات المفهرس. تحدد رسالة الخطأ أي تبعيات مفقودة.

الخطوات التالية

ينطبق الإثراء المتزايد على المفهرسات التي تحتوي على مجموعات المهارات، ما يوفر محتوى قابلا لإعادة الاستخدام لكل من الفهارس ومخازن المعرفة. توفر الارتباطات التالية المزيد من المعلومات حول التخزين المؤقت ومجموعات المهارات.