استيراد المعالجات في Azure الذكاء الاصطناعي Search

يحتوي Azure الذكاء الاصطناعي Search على معالجي استيراد يقومان بأتمتة الفهرسة وتعريفات الكائنات بحيث يمكنك بدء الاستعلام على الفور. إذا كنت جديدا على Azure الذكاء الاصطناعي Search، فإن هذه المعالجات هي واحدة من أقوى الميزات تحت تصرفك. بأقل جهد، يمكنك إنشاء تدفق فهرسة أو إثراء يمارس معظم وظائف Azure الذكاء الاصطناعي Search.

يدعم معالج استيراد البيانات مهام سير العمل غير العملية. يمكنك استخراج نص أبجدي رقمي من المستندات الأولية. يمكنك أيضا تكوين الذكاء الاصطناعي المطبقة والمهارات المضمنة التي تستنتج بناء وإنشاء محتوى نصي قابل للبحث من ملفات الصور والبيانات غير المنظمة.

يدعم معالج استيراد البيانات واتجاهها الخط المتجه. يجب تحديد نشر موجود لنموذج تضمين، ولكن المعالج يقوم بإجراء الاتصال وصياغة الطلب ومعالجة الاستجابة. يقوم بإنشاء محتوى متجه من محتوى النص أو الصورة.

إذا كنت تستخدم المعالج لاختبار إثبات المفهوم، تشرح هذه المقالة العمل الداخلي للمعالجات بحيث يمكنك استخدامها بشكل أكثر فعالية.

هذه المقالة ليست خطوة بخطوة. للحصول على تعليمات حول استخدام المعالج مع عينة البيانات المضمنة، راجع:

بدء تشغيل المعالجات

في مدخل Microsoft Azure، افتح صفحة خدمة البحث من لوحة المعلومات أو ابحث عن الخدمة في قائمة الخدمة.

في صفحة نظرة عامة على الخدمة في الأعلى، حدد استيراد البيانات أو استيراد البيانات واتجاهها.

لقطة شاشة لخيارات معالج الاستيراد على شريط الإجراءات.

يتم فتح المعالجات بشكل كامل في نافذة المستعرض بحيث يكون لديك مساحة أكبر للعمل.

يمكنك أيضا تشغيل استيراد البيانات من خدمات Azure الأخرى، بما في ذلك Azure Cosmos DB وAzure SQL Database وSQL Managed Instance وAzure Blob Storage. ابحث عن Add Azure الذكاء الاصطناعي Search في جزء التنقل الأيسر في صفحة نظرة عامة على الخدمة.

الكائنات التي أنشأها المعالج

يقوم المعالج إخراج الكائنات في الجدول التالي. بعد إنشاء الكائنات، يمكنك مراجعة تعريفات JSON الخاصة بها في المدخل أو استدعائها من التعليمات البرمجية.

الكائن ‏‏الوصف
مفهرس كائن تكوين يحدد مصدر بيانات وفهرس هدف ومجموعة مهارات اختيارية وجدول زمني اختياري وإعدادات تكوين اختيارية لتسليم الأخطاء وترميز base-64.
مصدر البيانات استمرار معلومات الاتصال بمصدر بيانات مدعوم على Azure. يُستخدم عنصر مصدر البيانات فقط مع المفهرسات.
الفهرس بنية البيانات الفعلية المستخدمة للبحث عن النص الكامل والاستعلامات الأخرى.
مجموعة المهارات اختياري. مجموعة كاملة من التعليمات لمعالجة المحتوى وتحويله وتشكيله، بما في ذلك تحليل المعلومات واستخراجها من ملفات الصور. وتستخدم مجموعات المهارات أيضا في التوجيه المتكامل. ما لم يقع حجم العمل تحت حد 20 معاملة لكل مفهرس يوميا، يجب أن تتضمن مجموعة المهارات مرجعا إلى مورد Azure الذكاء الاصطناعي متعدد الخدمات الذي يوفر الإثراء. بالنسبة إلى المتجهات المتكاملة، يمكنك استخدام إما Azure الذكاء الاصطناعي Vision أو نموذج تضمين في كتالوج نموذج Azure الذكاء الاصطناعي Studio.
مخزن المعارف اختياري. يخزن الإخراج من في الجداول والكائنات الثنائية كبيرة الحجم في Azure Storage لتحليل مستقل أو معالجة انتقال البيانات من الخادم في سيناريوهات غير البحث.

المزايا

قبل كتابة أي تعليمة برمجية، يمكنك استخدام المعالجات للنماذج الأولية واختبار إثبات المفهوم. تتصل المعالجات بمصادر البيانات الخارجية، وتعين البيانات لإنشاء فهرس أولي، ثم تستورد البيانات وتتجه اختياريا كمستندات JSON إلى فهرس على Azure الذكاء الاصطناعي Search.

إذا كنت تقوم بتقييم مجموعات المهارات، فإن المعالج يعالج تعيينات حقول الإخراج ويضيف وظائف المساعد لإنشاء كائنات قابلة للاستخدام. تتم إضافة تقسيم النص إذا قمت بتحديد وضع تحليل. تتم إضافة دمج النصوص إذا اخترت تحليل الصور بحيث يمكن للمعالج إعادة توحيد أوصاف النص مع محتوى الصورة. تمت إضافة مهارات Shaper لدعم الإسقاطات الصالحة إذا اخترت خيار مخزن المعرفة. تأتي جميع المهام المذكورة أعلاه مع منحنى تعلم. إذا كنت جديدا على الإثراء، فإن القدرة على التعامل مع هذه الخطوات من أجلك تسمح لك بقياس قيمة المهارة دون الحاجة إلى استثمار الكثير من الوقت والجهد.

أخذ العينات هو العملية التي يتم من خلالها استنتاج مخطط فهرس، ولديه بعض القيود. عند إنشاء مصدر البيانات، يختار المعالج عينة عشوائية من المستندات لتحديد الأعمدة التي تشكل جزءا من مصدر البيانات. لا تتم قراءة جميع الملفات، حيث قد يستغرق ذلك ساعات لمصادر بيانات كبيرة جدا. نظرا لتحديد المستندات، يتم استخدام بيانات التعريف المصدر، مثل اسم الحقل أو النوع، لإنشاء مجموعة حقول في مخطط فهرس. اعتمادا على تعقيد البيانات المصدر، قد تحتاج إلى تحرير المخطط الأولي للتأكد من دقته، أو توسيعه للاكتمال. يمكنك إجراء التغييرات الخاصة بك مضمنة في صفحة تعريف الفهرس.

بشكل عام، تكون مزايا استخدام المعالج واضحة: طالما تم استيفاء المتطلبات، يمكنك إنشاء فهرس قابل للاستعلام في غضون دقائق. تتم معالجة بعض تعقيدات الفهرسة، مثل تسلسل البيانات كمستندات JSON، بواسطة المعالج.

القيود

المعالج ليس بدون قيود. يتم تلخيص القيود على النحو التالي:

  • لا يدعم المعالج التكرار أو إعادة الاستخدام. ينشئ كل تمرير من خلال المعالج فهرسا جديدا ومجموعة مهارات وتكوين مفهرس. يمكن الاحتفاظ بمصادر البيانات فقط وإعادة استخدامها داخل المعالج. لتحرير كائنات أخرى أو تحسينها، إما حذف الكائنات والبدء من جديد، أو استخدام واجهات برمجة تطبيقات REST أو .NET SDK لتعديل البنيات.

  • يجب أن يتواجد محتوى المصدر في مصدر بيانات معتمد.

  • أخذ العينات عبر مجموعة فرعية من البيانات المصدر. بالنسبة لمصادر البيانات الكبيرة، من الممكن أن يفوت المعالج الحقول. قد تحتاج إلى توسيع المخطط، أو تصحيح أنواع البيانات المستنتجة، إذا كان أخذ العينات غير كاف.

  • يقتصر الإثراء الذكاء الاصطناعي، كما هو مكشوف في المدخل، على مجموعة فرعية من المهارات المضمنة.

  • يقتصر مخزن المعرفة، الذي يمكن إنشاؤه بواسطة المعالج، على عدد قليل من الإسقاطات الافتراضية ويستخدم اصطلاح تسمية افتراضي. إذا كنت ترغب في تخصيص الأسماء أو الإسقاطات، فستحتاج إلى إنشاء مخزن المعلومات من خلال REST API أو SDKs.

اتصالات آمنة

تقوم معالجات الاستيراد بإجراء اتصالات صادرة باستخدام وحدة تحكم المدخل ونقاط النهاية العامة. لا يمكنك استخدام المعالجات إذا تم الوصول إلى موارد Azure عبر اتصال خاص أو من خلال ارتباط خاص مشترك.

يمكنك استخدام المعالجات عبر الاتصالات العامة المقيدة، ولكن لا تتوفر جميع الوظائف.

  • في خدمة البحث، يتطلب استيراد بيانات العينة المضمنة نقطة نهاية عامة ولا توجد قواعد جدار حماية.

    تتم استضافة نموذج البيانات من قبل Microsoft على موارد Azure محددة. تتصل وحدة تحكم المدخل بتلك الموارد عبر نقطة نهاية عامة. إذا وضعت خدمة البحث خلف جدار حماية، فستحصل على هذا الخطأ عند محاولة استرداد بيانات العينة المضمنة: Import configuration failed, error creating Data Source، متبوعة ب "An error has occured.".

  • في مصادر بيانات Azure المدعومة المحمية بجدران الحماية، يمكنك استرداد البيانات إذا كانت لديك قواعد جدار الحماية الصحيحة.

    يجب أن يقبل مورد Azure طلبات الشبكة من عنوان IP للجهاز المستخدم على الاتصال. يجب عليك أيضا سرد Azure الذكاء الاصطناعي Search كخدمة موثوق بها على تكوين شبكة المورد. على سبيل المثال، في Azure Storage، يمكنك سرد Microsoft.Search/searchServices كخدمة موثوق بها.

  • في الاتصالات بحساب Azure الذكاء الاصطناعي متعدد الخدمات الذي توفره، أو على الاتصالات بتضمين النماذج المنشورة في Azure الذكاء الاصطناعي Studio أو Azure OpenAI، يجب تمكين الوصول العام إلى الإنترنت. يتم استدعاء موارد Azure هذه عند استخدام المهارات المضمنة في معالج استيراد البيانات أو التوجيه المتكامل في معالج استيراد البيانات واتجاهها.

    • في معالج استيراد البيانات واتجاهها، يكون الخطأ "Access denied due to Virtual Network/Firewall rules."

    • في معالج استيراد البيانات ، لا يوجد خطأ، ولكن لن يتم إنشاء مجموعة المهارات.

إذا كانت إعدادات جدار الحماية تمنع سير عمل المعالج من النجاح، ففكر في النهج النصية أو البرمجية بدلا من ذلك.

‏‏سير العمل‬

يتم تنظيم المعالج في أربع خطوات رئيسية:

  1. الاتصال بمصدر بيانات Azure مدعوم.

  2. إنشاء مخطط فهرس، يتم استنتاجه بواسطة بيانات مصدر أخذ العينات.

  3. اختياريا، أضف الذكاء الاصطناعي المطبقة لاستخراج المحتوى والبنية أو إنشاؤها. يتم جمع المدخلات لإنشاء مخزن معارف في هذه الخطوة.

  4. قم بتشغيل المعالج لإنشاء كائنات، وتحويل البيانات اختياريا، وتحميل البيانات في فهرس، وتعيين جدول زمني وخيارات تكوين أخرى.

سير العمل هو مسار، لذلك فهو في اتجاه واحد. لا يمكنك استخدام المعالج لتحرير أي من الكائنات التي تم إنشاؤها، ولكن يمكنك استخدام أدوات المدخل الأخرى، مثل مصمم الفهرس أو المفهرس أو محررات JSON، للتحديثات المسموح بها.

تكوين مصدر البيانات في المعالج

تتصل المعالجات بمصدر بيانات خارجي مدعوم باستخدام المنطق الداخلي الذي توفره مفهرسات Azure الذكاء الاصطناعي Search، والمجهزة لعينة المصدر، وقراءة بيانات التعريف، وتكسير المستندات لقراءة المحتوى والبنية، وتسلسل المحتويات ك JSON للاستيراد اللاحق إلى Azure الذكاء الاصطناعي Search.

يمكنك اللصق في اتصال بمصدر بيانات معتمد في اشتراك أو منطقة مختلفة، ولكن يتم تحديد نطاق منتقي اتصال موجود للاشتراك النشط.

لقطة شاشة لعلامة التبويب الاتصال بالبيانات.

لا يتم ضمان توفر كافة مصادر بيانات المعاينة في المعالج. نظرا لأن كل مصدر بيانات لديه إمكانية إدخال تغييرات أخرى في المراحل النهائية، فلن تتم إضافة مصدر بيانات المعاينة إلا إلى قائمة مصادر البيانات إذا كان يدعم بالكامل جميع التجارب في المعالج، مثل تعريف مجموعة المهارات واستدلال مخطط الفهرس.

يمكنك الاستيراد فقط من جدول واحد أو طريقة عرض قاعدة بيانات أو بنية بيانات مكافئة، ولكن يمكن أن تتضمن البنية بنيات فرعية هرمية أو متداخلة. لمزيد من المعلومات، راجع كيفية نمذجة الأنواع المعقدة.

تكوين مجموعة المهارات في المعالج

يحدث تكوين مجموعة المهارات بعد تعريف مصدر البيانات لأن نوع مصدر البيانات يعلم توفر بعض المهارات المضمنة. على وجه الخصوص، إذا كنت تقوم بفهرسة الملفات من تخزين Blob، فإن اختيارك لوضع تحليل هذه الملفات يحدد ما إذا كان تحليل التوجه متوفرا أم لا.

يضيف المعالج المهارات التي تختارها. كما يضيف مهارات أخرى ضرورية لتحقيق نتيجة ناجحة. على سبيل المثال، إذا قمت بتحديد مخزن معارف، يضيف المعالج مهارة Shaper لدعم الإسقاطات (أو بنيات البيانات المادية).

تعد مجموعات المهارات اختيارية وهناك زر في أسفل الصفحة للتخطي للأمام إذا كنت لا تريد الذكاء الاصطناعي الإثراء.

تكوين مخطط الفهرس في المعالج

تعين المعالجات مصدر البيانات للكشف عن الحقول ونوع الحقل. اعتمادا على مصدر البيانات، قد يقدم أيضا حقولا لفهرسة بيانات التعريف.

نظرا لأن أخذ العينات هو تمرين غير دقيقة، راجع الفهرس للاعتبارات التالية:

  1. هل قائمة الحقول دقيقة؟ إذا كان مصدر البيانات يحتوي على حقول لم يتم التقاطها في أخذ العينات، فيمكنك إضافة أي حقول جديدة فاتها أخذ العينات يدويا، وإزالة أي حقول لا تضيف قيمة إلى تجربة بحث أو لن يتم استخدامها في تعبير عامل تصفية أو ملف تعريف تسجيل النقاط.

  2. هل نوع البيانات مناسب للبيانات الواردة؟ يدعم Azure الذكاء الاصطناعي Search أنواع بيانات نموذج بيانات الكيان (EDM). بالنسبة إلى بيانات Azure SQL، هناك مخطط تخطيطي يوضح القيم المكافئة. لمزيد من الخلفية، راجع تعيينات الحقول والتحويلات.

  3. هل لديك حقل واحد يمكن أن يكون بمثابة المفتاح؟ يجب أن يكون هذا الحقل Edm.string ويجب أن يعرف مستندا بشكل فريد. بالنسبة للبيانات الارتباطية، قد يتم تعيينها إلى مفتاح أساسي. بالنسبة للكائنات الثنائية metadata-storage-pathكبيرة الحجم، قد يكون . إذا كانت قيم الحقول تتضمن مسافات أو شرطات، فيجب عليك تعيين الخيار Base-64 Encode Key في الخطوة إنشاء مفهرس ، ضمن خيارات متقدمة، لمنع التحقق من صحة هذه الأحرف.

  4. تعيين السمات لتحديد كيفية استخدام هذا الحقل في فهرس.

    خذ وقتك مع هذه الخطوة لأن السمات تحدد التعبير الفعلي للحاول في الفهرس. إذا كنت ترغب في تغيير السمات لاحقا، حتى برمجيا، فستحتاج دائما تقريبا إلى إسقاط الفهرس وإعادة بنائه. السمات الأساسية مثل Searchable و Retrievableلها تأثير ضئيل على التخزين. يؤدي تمكين عوامل التصفية واستخدام المقترحات إلى زيادة متطلبات التخزين.

    • يمكن Searchable البحث في النص الكامل. يجب أن يكون لكل حقل مستخدم في استعلامات النموذج الحر أو في تعبيرات الاستعلام هذه السمة. يتم إنشاء فهارس مقلوبة لكل حقل تقوم بوضع علامة عليه على أنه قابل للبحث.

    • يرجع القابل للاسترداد الحقل في نتائج البحث. يجب أن يكون لكل حقل يوفر محتوى لنتائج البحث هذه السمة. لا يؤثر تعيين هذا الحقل بشكل ملحوظ على حجم الفهرس.

    • يسمح القابل للتصفية بالإشارة إلى الحقل في تعبيرات التصفية. يجب أن يحتوي كل حقل مستخدم في تعبير $filter على هذه السمة. تعبيرات التصفية مخصصة للمطابقات الدقيقة. نظرا لأن السلاسل النصية تظل سليمة، يلزم المزيد من التخزين لاستيعاب المحتوى الحرفي.

    • يتيح Facetable الحقل للتنقل بين الواجهات. يمكن وضع علامة على الحقول فقط كقابلة للتصفية ك Facetable.

    • يسمح Sortable باستخدام الحقل في فرز. يجب أن يكون لكل حقل مستخدم في تعبير $Orderby هذه السمة.

  5. هل تحتاج إلى تحليل معجمي؟ بالنسبة لحقول Edm.string القابلة للبحث، يمكنك تعيين محلل إذا كنت تريد فهرسة واستعلام محسنين للغة.

    الإعداد الافتراضي هو Standard Lucene ولكن يمكنك اختيار Microsoft English إذا كنت تريد استخدام محلل Microsoft للمعالجة المعجمية المتقدمة، مثل حل أشكال الأسماء والفعل غير المنتظمة. يمكن تحديد محللات اللغة فقط في المدخل. إذا كنت تستخدم محللا مخصصا أو محللا غير لغة مثل الكلمة الأساسية والنمط وما إلى ذلك، يجب عليك إنشاؤه برمجيا. لمزيد من المعلومات حول المحللات، راجع إضافة محللات اللغة.

  6. هل تحتاج إلى وظيفة typeahead في شكل الإكمال التلقائي أو النتائج المقترحة؟ حدد خانة الاختيار Suggester لتمكين اقتراحات استعلام typeahead والإكمال التلقائي في الحقول المحددة. يضيف المقترحون إلى عدد المصطلحات المميزة في الفهرس الخاص بك، وبالتالي يستهلكون المزيد من التخزين.

تكوين المفهرس في المعالج

تجمع الصفحة الأخيرة من المعالج مدخلات المستخدم لتكوين المفهرس. يمكنك تحديد جدول زمني وتعيين خيارات أخرى تختلف حسب نوع مصدر البيانات.

داخليا، يقوم المعالج أيضا بإعداد التعريفات التالية، والتي لا تكون مرئية في المفهرس إلا بعد إنشائه:

  • تعيينات الحقول بين مصدر البيانات والفهرس
  • تعيينات حقل الإخراج بين إخراج المهارة والفهرس

الخطوات التالية

أفضل طريقة لفهم فوائد وقيود المعالج هي التنقل عبره. فيما يلي بداية سريعة تشرح كل خطوة.