البحث عبر محتوى Azure Blob Storage

يمكن أن يكون البحث عبر مجموعة متنوعة من أنواع المحتويات المخزنة في Azure Blob Storage مشكلة صعبة الحل، ولكن يوفر Azure الذكاء الاصطناعي Search تكاملا عميقا في طبقة المحتوى، واستخراج المعلومات النصية والاستدلال عليها، والتي يمكن الاستعلام عنها بعد ذلك في فهرس بحث.

في هذه المقالة، راجع سير العمل الأساسي لاستخراج المحتوى وبيانات التعريف من الكائنات الثنائية كبيرة الحجم وإرسالها إلى فهرس بحث في Azure الذكاء الاصطناعي Search. يمكن الاستعلام عن الفهرس الناتج باستخدام البحث عن النص الكامل. اختياريا، يمكنك إرسال محتوى كائن ثنائي كبير الحجم تمت معالجته إلى مخزن معارف للسيناريوهات غير المتعلقة بالبحث.

إشعار

هل تعرف بالفعل على سير العمل والتكوين؟ تكوين مفهرس كائن ثنائي كبير الحجم هو خطوتك التالية.

معناه إضافة بحث النص الكامل إلى بيانات الكائن الثنائي كبير الحجم

Azure الذكاء الاصطناعي Search هي خدمة بحث مستقلة تدعم أحمال عمل الفهرسة والاستعلام عبر الفهارس المعرفة من قبل المستخدم والتي تحتوي على المحتوى الخاص القابل للبحث المستضاف في السحابة. يعد تحديد موقع المحتوى القابل للبحث باستخدام محرك الاستعلام في السحابة أمرا ضروريا للأداء، مما يؤدي إلى إرجاع النتائج بسرعة يتوقعها المستخدمون من استعلامات البحث.

يتكامل Azure الذكاء الاصطناعي Search مع Azure Blob Storage في طبقة الفهرسة، مع استيراد محتوى الكائن الثنائي كبير الحجم كمستندات بحث مفهرسة في فهارس مقلوبة وهياكل استعلام أخرى تدعم استعلامات النص ذات النموذج الحر وتعبيرات التصفية. نظرا لأن محتوى الكائن الثنائي كبير الحجم مفهرس في فهرس بحث، يمكنك استخدام النطاق الكامل لميزات الاستعلام في Azure الذكاء الاصطناعي Search للعثور على معلومات في محتوى الكائن الثنائي كبير الحجم.

المدخلات هي الكائنات الثنائية كبيرة الحجم الخاصة بك، في حاوية واحدة، في Azure Blob Storage. يمكن أن تكون الكائنات الثنائية كبيرة الحجم تقريبا أي نوع من البيانات النصية. إذا كانت الكائنات الثنائية كبيرة الحجم تحتوي على صور، يمكنك إضافة الذكاء الاصطناعي الإثراء لإنشاء واستخراج النص والميزات من الصور.

الإخراج هو دائما فهرس Azure الذكاء الاصطناعي Search، يستخدم للبحث السريع في النص واسترجاعه واستكشافه في تطبيقات العميل. في ما بين هو بنية البنية الأساسية لبرنامج ربط العمليات التجارية الفهرسة نفسها. يستند المسار إلى ميزة المفهرس ، التي تمت مناقشتها بشكل أكبر في هذه المقالة.

بمجرد إنشاء الفهرس وملئه، فإنه موجود بشكل مستقل عن حاوية الكائن الثنائي كبير الحجم، ولكن يمكنك إعادة تشغيل عمليات الفهرسة لتحديث الفهرس الخاص بك استنادا إلى المستندات التي تم تغييرها. يتم استخدام معلومات الطابع الزمني على الكائنات الثنائية كبيرة الحجم الفردية للكشف عن التغيير. يمكنك اختيار إما التنفيذ المجدول أو الفهرسة عند الطلب كآلية تحديث.

الموارد المستخدمة في حل البحث عن كائن ثنائي كبير الحجم

تحتاج إلى Azure الذكاء الاصطناعي Search وAzure Blob Storage وعميل. عادة ما يكون Azure الذكاء الاصطناعي Search أحد المكونات العديدة في الحل، حيث يصدر رمز التطبيق طلبات واجهة برمجة التطبيقات للاستعلام ويعالج الاستجابة. يمكنك أيضا كتابة التعليمات البرمجية للتطبيق للتعامل مع الفهرسة، على الرغم من أنه بالنسبة لاختبار إثبات المفهوم والمهام المرتجلة، فمن الشائع استخدام مدخل Microsoft Azure ك عميل بحث.

ضمن Blob Storage، ستحتاج إلى حاوية توفر محتوى المصدر. يمكنك تعيين معايير تضمين الملفات واستبعادها، وتحديد أجزاء الكائن الثنائي كبير الحجم التي تتم فهرستها في Azure الذكاء الاصطناعي Search.

يمكنك البدء مباشرة في صفحة مدخل حساب التخزين.

  1. في صفحة التنقل اليسرى ضمن إدارة البيانات، حدد Azure الذكاء الاصطناعي Search لتحديد خدمة بحث أو إنشائها.

  2. اتبع الخطوات الواردة في المعالج لاستخراج المحتوى القابل للبحث من الكائنات الثنائية كبيرة الحجم وإنشاءه اختياريا. سير العمل هو معالج استيراد البيانات. ينشئ سير العمل مجموعة مهارات مفهرس ومصدر بيانات وفهرس وخيار على الذكاء الاصطناعي خدمة البحث Azure.

    لقطة شاشة لمعالج Azure الذكاء الاصطناعي Search في صفحة مدخل Azure Storage.

  3. استخدم مستكشف البحث في صفحة مدخل البحث للاستعلام عن المحتوى الخاص بك.

المعالج هو أفضل مكان للبدء، ولكن ستكتشف خيارات أكثر مرونة عند تكوين مفهرس كائن ثنائي كبير الحجم بنفسك. يمكنك استخدام عميل REST. البرنامج التعليمي: يرشدك فهرسة البيانات شبه المنظمة (الكائنات الثنائية كبيرة الحجم JSON) والبحث فيها عبر خطوات استدعاء واجهة برمجة تطبيقات REST.

كيفية فهرسة الكائنات الثنائية كبيرة الحجم

بشكل افتراضي، تتم فهرسة معظم الكائنات الثنائية كبيرة الحجم كمستند بحث واحد في الفهرس، بما في ذلك الكائنات الثنائية كبيرة الحجم ذات المحتوى المنظم، مثل JSON أو CSV، والتي تتم فهرستها كملف واحد من النص. ومع ذلك، بالنسبة لمستندات JSON أو CSV التي تحتوي على بنية داخلية (محددات)، يمكنك تعيين أوضاع تحليل لإنشاء مستندات بحث فردية لكل سطر أو عنصر:

مستند مركب أو مضمن (مثل أرشيف ZIP أو مستند Word مع بريد إلكتروني مضمن في Outlook يحتوي على مرفقات أو . تتم أيضا فهرسة ملف MSG مع المرفقات) كمستند واحد. على سبيل المثال، جميع الصور المستخرجة من مرفقات . سيتم إرجاع ملف MSG في حقل normalized_images. إذا كانت لديك صور، ففكر في إضافة الذكاء الاصطناعي الإثراء للحصول على المزيد من أداة البحث من هذا المحتوى.

يتم استخراج المحتوى النصي لمستند في حقل سلسلة يسمى "المحتوى". يمكنك أيضا استخراج بيانات التعريف القياسية والمعرفة من قبل المستخدم.

إشعار

يفرض Azure الذكاء الاصطناعي Search حدود المفهرس على مقدار النص الذي يستخرجه اعتمادا على مستوى التسعير. سيظهر تحذير في استجابة حالة المفهرس إذا تم اقتطاع المستندات.

استخدام مفهرس كائن ثنائي كبير الحجم لاستخراج المحتوى

المفهرس هو خدمة فرعية مدركة لمصدر البيانات في Azure الذكاء الاصطناعي Search، ومجهزة بمنطق داخلي لأخذ العينات للبيانات، وقراءة البيانات وبيانات التعريف واستردادها، وتسلسل البيانات من التنسيقات الأصلية إلى مستندات JSON للاستيراد اللاحق.

تتم فهرسة الكائنات الثنائية كبيرة الحجم في Azure Storage باستخدام مفهرس الكائن الثنائي كبير الحجم. يمكنك استدعاء هذا المفهرس باستخدام الأمر Azure الذكاء الاصطناعي Search في Azure Storage أو معالج استيراد البيانات أو واجهة برمجة تطبيقات REST أو .NET SDK. في التعليمات البرمجية، يمكنك استخدام هذا المفهرس عن طريق تعيين النوع، وعن طريق توفير معلومات الاتصال التي تتضمن حساب تخزين Azure مع حاوية كائن ثنائي كبير الحجم. يمكنك تعيين الكائنات الثنائية كبيرة الحجم الخاصة بك عن طريق إنشاء دليل ظاهري، والذي يمكنك تمريره كمعلمة، أو عن طريق التصفية على ملحق نوع الملف.

مفهرس "يكسر مستندا"، ويفتح كائنا ثنائيا كبير الحجم لفحص المحتوى. بعد الاتصال بمصدر البيانات، إنها الخطوة الأولى في البنية الأساسية لبرنامج ربط العمليات التجارية. بالنسبة لبيانات الكائنات الثنائية كبيرة الحجم، هذا هو المكان الذي يتم فيه الكشف عن PDF ومستندات Office وأنواع المحتويات الأخرى. تكسير المستند مع استخراج النص ليس رسوما. إذا كانت الكائنات الثنائية كبيرة الحجم تحتوي على محتوى صورة، يتم تجاهل الصور ما لم تقم بإضافة الذكاء الاصطناعي الإثراء. تنطبق الفهرسة القياسية على محتوى النص فقط.

يأتي مفهرس Azure blob مع معلمات التكوين ويدعم تعقب التغيير إذا كانت البيانات الأساسية توفر معلومات كافية. يمكنك معرفة المزيد حول الوظائف الأساسية في فهرسة البيانات من Azure Blob Storage.

مستويات الوصول المعتمدة

تتضمن مستويات الوصول إلى تخزين Blob الساخنة والباردة والأرشيف. يمكن الوصول إلى الساخنة والباردة فقط من قبل المفهرسات.

أنواع المحتويات المدعومة

من خلال تشغيل مفهرس كائن ثنائي كبير الحجم عبر حاوية، يمكنك استخراج النص وبيانات التعريف من أنواع المحتوى التالية باستخدام استعلام واحد:

التحكم في الكائنات الثنائية كبيرة الحجم التي تتم فهرستها

يمكنك التحكم في الكائنات الثنائية كبيرة الحجم التي تتم فهرستها، والتي يتم تخطيها، حسب نوع ملف الكائن الثنائي كبير الحجم أو عن طريق تعيين خصائص على الكائن الثنائي كبير الحجم نفسها، مما يتسبب في تخطي المفهرس لها.

قم بتضمين ملحقات ملفات معينة عن طريق الإعداد "indexedFileNameExtensions" إلى قائمة مفصولة بفواصل من ملحقات الملفات (مع نقطة بادئة). استبعاد ملحقات ملفات معينة عن طريق تعيين "excludedFileNameExtensions" إلى الملحقات التي يجب تخطيها. إذا كان الملحق نفسه في كلتا القائمتين، فسيتم استبعاده من الفهرسة.

PUT /indexers/[indexer name]?api-version=2023-11-01
{
    "parameters" : { 
        "configuration" : { 
            "indexedFileNameExtensions" : ".pdf, .docx",
            "excludedFileNameExtensions" : ".png, .jpeg" 
        } 
    }
}

إضافة بيانات تعريف "تخطي" الكائن الثنائي كبير الحجم

تنطبق معلمات تكوين المفهرس على جميع الكائنات الثنائية كبيرة الحجم في الحاوية أو المجلد. في بعض الأحيان، تريد التحكم في كيفية فهرسة الكائنات الثنائية كبيرة الحجم الفردية.

أضف خصائص وقيم بيانات التعريف التالية إلى الكائنات الثنائية كبيرة الحجم في Blob Storage. عندما يواجه المفهرس هذه الخاصية، فإنه سيتخطى الكائن الثنائي كبير الحجم أو محتواه في تشغيل الفهرسة.

اسم الخاصية قيمة الخاصية الشرح
"AzureSearch_Skip" "true" يرشد مفهرس الكائن الثنائي كبير الحجم إلى تخطي الكائن الثنائي كبير الحجم تماما. لا تتم محاولة بيانات التعريف ولا استخراج المحتوى. هذا مفيد عندما يفشل كائن ثنائي كبير الحجم معين بشكل متكرر ويقاطع عملية الفهرسة.
"AzureSearch_SkipContent" "true" وهذا يعادل الإعداد الموضح "dataToExtract" : "allMetadata"أعلاه محدد النطاق إلى كائن ثنائي كبير الحجم معين.

فهرسة بيانات تعريف الكائن الثنائي كبير الحجم

السيناريو الشائع الذي يجعل من السهل الفرز بين الكائنات الثنائية كبيرة الحجم من أي نوع محتوى هو فهرسة كل من بيانات التعريف المخصصة وخصائص النظام لكل كائن ثنائي كبير الحجم. بهذه الطريقة، تتم فهرسة المعلومات الخاصة بجميع الكائنات الثنائية كبيرة الحجم بغض النظر عن نوع المستند، ويتم تخزينها في فهرس في خدمة البحث. باستخدام الفهرس الجديد، يمكنك بعد ذلك المتابعة للفرز والتصفية والواجهة عبر جميع محتويات تخزين Blob.

إشعار

تتم فهرسة علامات Blob Index في الأصل بواسطة خدمة تخزين Blob وتعرض للاستعلام. إذا كانت سمات مفتاح/قيمة الكائنات الثنائية كبيرة الحجم تتطلب قدرات الفهرسة والتصفية، فيجب الاستفادة من علامات فهرس Blob بدلا من بيانات التعريف.

لمعرفة المزيد حول Blob Index، راجع إدارة البيانات والعثور عليها على Azure Blob Storage باستخدام Blob Index.

البحث في محتوى كائن ثنائي كبير الحجم في فهرس بحث

إخراج المفهرس هو فهرس بحث، يستخدم للاستكشاف التفاعلي باستخدام نص مجاني واستعلامات تمت تصفيتها في تطبيق العميل. للاستكشاف الأولي والتحقق من المحتوى، نوصي بالبدء ب Search Explorer في المدخل لفحص بنية المستند. في مستكشف البحث، يمكنك استخدام:

الحل الأكثر دواما هو جمع مدخلات الاستعلام وتقديم الاستجابة كنتائج بحث في تطبيق عميل. يشرح البرنامج التعليمي التالي C# كيفية إنشاء تطبيق بحث: إضافة بحث إلى تطبيق ASP.NET Core (MVC).

الخطوات التالية