التشغيل السريع: الخط المتجه المتكامل (معاينة)

هام

معالج استيراد البيانات واتجاهها في المعاينة العامة ضمن شروط الاستخدام التكميلية. يستهدف واجهة برمجة تطبيقات REST 2023-10-01-Preview.

ابدأ مع المتجهات المتكاملة (معاينة) باستخدام معالج استيراد البيانات واتجاهها في مدخل Microsoft Azure. يستدعي هذا المعالج نموذج تضمين نص Azure OpenAI لإرسال المحتوى أثناء الفهرسة والاستعلامات.

في إصدار المعاينة هذا من المعالج:

  • البيانات المصدر هي كائن ثنائي كبير الحجم فقط، باستخدام وضع التحليل الافتراضي (مستند بحث واحد لكل كائن ثنائي كبير الحجم).

  • مخطط الفهرس غير قابل للتكوين. تتضمن content حقول المصدر (مجزأة ومتجهة)، metadata_storage_name للعنوان، و metadata_storage_path لمفتاح المستند، ممثلة كما parent_id في الفهرس.

  • المتجه هو Azure OpenAI فقط (text-embedding-ada-002)، باستخدام خوارزمية العوام الصغيرة القابلة للتنقل الهرمية (HNSW) مع الإعدادات الافتراضية.

  • التقسيم غير قابل للتكوين. الإعدادات الفعالة هي:

    textSplitMode: "pages",
    maximumPageLength: 2000,
    pageOverlapLength: 500
    

لمزيد من خيارات التكوين ومصدر البيانات، جرب Python أو واجهات برمجة تطبيقات REST. راجع عينة المتجهات المتكاملة للحصول على التفاصيل.

  • اشتراك Azure. أنشئ حسابًا مجانًا.

  • Azure الذكاء الاصطناعي Search، في أي منطقة وعلى أي مستوى. تدعم معظم الخدمات الموجودة البحث عن المتجهات. بالنسبة لمجموعة فرعية صغيرة من الخدمات التي تم إنشاؤها قبل يناير 2019، يفشل الفهرس الذي يحتوي على حقول المتجهات عند الإنشاء. في هذه الحالة، يجب إنشاء خدمة جديدة.

  • نقطة نهاية Azure OpenAI مع نشر text-embedding-ada-002 ومفتاح API أو أذونات مستخدم OpenAI للخدمات المعرفية لتحميل البيانات. يمكنك اختيار متجه واحد فقط في هذه المعاينة، ويجب أن يكون المتجه هو Azure OpenAI.

  • حساب Azure Storage، والأداء القياسي (الإصدار 2 للأغراض العامة)، طبقات الوصول الساخنة والباردة والباردة.

  • توفر الكائنات الثنائية كبيرة الحجم محتوى نصيا، ومستندات غير منظمة فقط، وبيانات تعريف. في هذه المعاينة، يجب أن يكون مصدر البيانات الخاص بك Azure blobs.

  • قراءة الأذونات في Azure Storage. تمنحك سلسلة الاتصال التخزين التي تتضمن مفتاح وصول حق الوصول للقراءة إلى محتوى التخزين. إذا كنت تستخدم بدلا من ذلك عمليات تسجيل الدخول والأدوار من Microsoft Entra، فتأكد من أن الهوية المدارة لخدمة البحث لديها أذونات Storage Blob Data Reader.

  • يجب تمكين الوصول العام لجميع المكونات (مصدر البيانات ونقطة نهاية التضمين) لعقد المدخل لتكون قادرة على الوصول إليها. وإلا، يفشل المعالج. بعد تشغيل المعالج، يمكن تمكين جدران الحماية ونقاط النهاية الخاصة في مكونات التكامل المختلفة للأمان. إذا كانت نقاط النهاية الخاصة موجودة بالفعل ولا يمكن تعطيلها، فإن الخيار البديل هو تشغيل التدفق من طرف إلى طرف المعني من برنامج نصي أو برنامج من جهاز ظاهري داخل نفس الشبكة الظاهرية مثل نقطة النهاية الخاصة. فيما يلي نموذج التعليمات البرمجية ل Python من أجل المتجهات المتكاملة. في نفس مستودع GitHub هي عينات بلغات البرمجة الأخرى.

التحقق من وجود مساحة

يبدأ العديد من العملاء بالخدمة المجانية. يقتصر المستوى المجاني على ثلاثة فهارس وثلاثة مصادر بيانات وثلاث مجموعات مهارات وثلاثة مفهرسات. تأكد من أن لديك مساحة للعناصر الإضافية قبل أن تبدأ. ينشئ هذا التشغيل السريع أحد كل كائن.

التحقق من الترتيب الدلالي

يدعم هذا المعالج الترتيب الدلالي، ولكن فقط على المستوى الأساسي وما فوق، وفقط إذا تم تمكين الترتيب الدلالي بالفعل على خدمة البحث. إذا كنت تستخدم مستوى قابلا للفوترة، فتحقق لمعرفة ما إذا كان الترتيب الدلالي ممكنا.

لقطة شاشة لصفحة تكوين ranker الدلالي.

تحضير بيانات العينة

يشير هذا القسم إلى البيانات التي تعمل مع هذا التشغيل السريع.

  1. سجل الدخول إلى مدخل Microsoft Azure باستخدام حساب Azure الخاص بك، وانتقل إلى حساب Azure Storage الخاص بك.

  2. في جزء التنقل، ضمن Data Storage، حدد Containers.

  3. قم بإنشاء حاوية جديدة ثم قم بتحميل مستندات PDF الخاصة بخطة الحماية المستخدمة في هذا التشغيل السريع.

  4. قبل مغادرة حساب Azure Storage في مدخل Microsoft Azure، امنح Storage Blob Data Reader أذونات على الحاوية، على افتراض أنك تريد الوصول المستند إلى الدور. أو احصل على سلسلة الاتصال إلى حساب التخزين من صفحة مفاتيح Access.

الحصول على تفاصيل الاتصال ل Azure OpenAI

يحتاج المعالج إلى نقطة نهاية، ونشر text-embedding-ada-002، وإما مفتاح API أو هوية مدارة لخدمة البحث مع أذونات مستخدم OpenAI للخدمات المعرفية.

  1. سجل الدخول إلى مدخل Microsoft Azure باستخدام حساب Azure الخاص بك، وانتقل إلى مورد Azure OpenAI.

  2. ضمن المفاتيح والإدارة، انسخ نقطة النهاية.

  3. في نفس الصفحة، انسخ مفتاحا أو تحقق من التحكم في الوصول لتعيين أعضاء الدور إلى هوية خدمة البحث.

  4. ضمن Model deployments، حدد Manage deployments لفتح Azure الذكاء الاصطناعي Studio. انسخ اسم نشر text-embedding-ada-002.

بدء تشغيل المعالج

للبدء، استعرض للوصول إلى الذكاء الاصطناعي خدمة البحث Azure في مدخل Microsoft Azure وافتح معالج استيراد البيانات واتجاهها.

  1. سجل الدخول إلى مدخل Microsoft Azure باستخدام حساب Azure الخاص بك، وانتقل إلى Azure الذكاء الاصطناعي خدمة البحث.

  2. في صفحة Overview ، حدد Import and vectorize data.

    لقطة شاشة لأمر المعالج.

الاتصال إلى بياناتك

الخطوة التالية هي الاتصال بمصدر بيانات لاستخدامه في فهرس البحث.

  1. في معالج استيراد البيانات واتجاهها في الاتصال إلى علامة تبويب البيانات، قم بتوسيع القائمة المنسدلة مصدر البيانات وحدد Azure Blob Storage.

  2. حدد اشتراك Azure وحساب التخزين والحاوية التي توفر البيانات.

  3. للاتصال، إما توفير وصول كامل سلسلة الاتصال يتضمن مفتاحا، أو تحديد هوية مدارة لها أذونات Storage Blob Data Reader على الحاوية.

  4. حدد ما إذا كنت تريد الكشف عن الحذف:

    لقطة شاشة لصفحة مصدر البيانات.

  5. حدد Next: Vectorize و Enrich للمتابعة.

إثراء بياناتك واتجاهها

في هذه الخطوة، حدد نموذج التضمين المستخدم في تحويل البيانات المكتملة.

  1. قم بتوفير الاشتراك ونقطة النهاية ومفتاح API واسم نشر النموذج.

  2. اختياريا، يمكنك اختراق الصور الثنائية (على سبيل المثال، ملفات المستندات الممسوحة ضوئيا) واستخدام التعرف البصري على الحروف للتعرف على النص.

  3. اختياريا، يمكنك إضافة الترتيب الدلالي لإعادة ترتيب النتائج في نهاية تنفيذ الاستعلام، وتعزيز التطابقات الأكثر صلة دلاليا بالأعلى.

  4. حدد جدول وقت تشغيل للمفهرس.

    لقطة شاشة لصفحة الإثراء.

  5. حدد Next: Create and Review للمتابعة.

تشغيل المعالج

تنشئ هذه الخطوة العناصر التالية:

  • اتصال مصدر البيانات بحاوية الكائن الثنائي كبير الحجم.

  • فهرس مع حقول المتجهات، المتجهات، ملفات تعريف المتجهات، خوارزميات المتجهات. لا تتم مطالبتك بتصميم الفهرس الافتراضي أو تعديله أثناء سير عمل المعالج. تتوافق الفهارس مع إصدار 2023-10-01-Preview.

  • مجموعة المهارات مع مهارة تقسيم النص للتقسيم وAzureOpenAIEmbeddingModel للتوزيع.

  • المفهرس مع تعيينات الحقول وتعيينات حقول الإخراج (إن أمكن).

إذا تلقيت أخطاء، فراجع الأذونات أولا. تحتاج إلى مستخدم OpenAI للخدمات المعرفية على Azure OpenAI وقارئ بيانات تخزين Blob على Azure Storage. يجب أن تكون الكائنات الثنائية كبيرة الحجم غير منظمة (يتم سحب البيانات المقطوزة من خاصية "المحتوى" للكائن الثنائي كبير الحجم).

التحقق من النتائج

يقبل مستكشف البحث السلاسل النصية كإدخال ثم ينتقل النص لتنفيذ استعلام المتجه.

  1. حدد الفهرس الخاص بك.

  2. اختياريا، حدد خيارات الاستعلام وأخف قيم المتجهات في نتائج البحث. تسهل هذه الخطوة قراءة نتائج البحث.

    لقطة شاشة لزر خيارات الاستعلام.

  3. حدد طريقة عرض JSON بحيث يمكنك إدخال نص لاستعلام المتجه في معلمة استعلام متجه النص .

    لقطة شاشة لمحدد JSON.

    يقدم هذا المعالج استعلاما افتراضيا يصدر استعلاما متجها في حقل "المتجه"، مع إرجاع أقرب 5 جيران. إذا اخترت إخفاء قيم المتجهات، يتضمن الاستعلام الافتراضي عبارة "تحديد" تستبعد حقل المتجه من نتائج البحث.

    {
       "select": "chunk_id,parent_id,chunk,title",
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "vector"
           }
        ]
    }
    
  4. استبدل النص "*" بسؤال يتعلق بالخطط الصحية، مثل "الخطة التي تحتوي على أقل خصم".

  5. حدد بحث لتشغيل الاستعلام.

    لقطة شاشة لنتائج البحث.

    يجب أن تشاهد 5 تطابقات، حيث يمثل كل مستند جزءا من ملف PDF الأصلي. يعرض حقل العنوان ملف PDF الذي تأتي منه المجموعة.

  6. لمشاهدة كافة المجموعات من مستند معين، أضف عامل تصفية لحقل العنوان لملف PDF معين:

    {
       "select": "chunk_id,parent_id,chunk,title",
       "filter": "title eq 'Benefit_Options.pdf'",
       "count": true,
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "vector"
           }
        ]
    }
    
    

تنظيف

Azure الذكاء الاصطناعي Search هو مورد قابل للفوترة. إذا لم تعد هناك حاجة إليها، فاحذفها من اشتراكك لتجنب الرسوم.

الخطوات التالية

قدم لك هذا التشغيل السريع معالج استيراد البيانات واتجاهها الذي ينشئ جميع الكائنات الضرورية للخطوط المتجهة المتكاملة. إذا كنت ترغب في استكشاف كل خطوة بالتفصيل، فجرب نموذج متجه متكامل.