التشغيل السريع: إنشاء مجموعة مهارات في مدخل Microsoft Azure

في هذا التشغيل السريع، ستتعلم كيف تضيف مجموعة المهارات في Azure الذكاء الاصطناعي Search التعرف البصري على الحروف (OCR)، وتحليل الصور، والكشف عن اللغة، وترجمة النص، والتعرف على الكيان لإنشاء محتوى قابل للبحث في النص في فهرس بحث.

يمكنك تشغيل معالج استيراد البيانات في مدخل Microsoft Azure لتطبيق المهارات التي تنشئ المحتوى النصي وتحوله أثناء الفهرسة. الإدخال هو بياناتك الأولية، عادة ما تكون كائنات ثنائية كبيرة الحجم في Azure Storage. الإخراج هو فهرس قابل للبحث يحتوي على نص الصورة والتسميات التوضيحية والكيانات التي تم إنشاؤها الذكاء الاصطناعي. يمكن الاستعلام عن المحتوى الذي تم إنشاؤه في المدخل باستخدام مستكشف البحث.

للتحضير، يمكنك إنشاء بعض الموارد وتحميل ملفات العينة قبل تشغيل المعالج.

المتطلبات الأساسية

قبل البدء، يجب أن يكون لديك المتطلبات الأساسية التالية قائمة:

إشعار

يستخدم هذا التشغيل السريع خدمات Azure الذكاء الاصطناعي لتحويلات الذكاء الاصطناعي. نظرا لأن حمل العمل صغير جدا، يتم استغلال خدمات Azure الذكاء الاصطناعي خلف الكواليس للمعالجة المجانية لما يصل إلى 20 معاملة. يمكنك إكمال هذا التمرين دون الحاجة إلى إنشاء مورد Azure الذكاء الاصطناعي متعدد الخدمات.

إعداد البيانات

في الخطوات التالية، قم بإعداد حاوية كائن ثنائي كبير الحجم في Azure Storage لتخزين ملفات المحتوى غير المتجانس.

  1. قم بتنزيل نموذج بيانات يتكون من مجموعة ملفات صغيرة من أنواع مختلفة.

  2. سجل الدخول إلى مدخل Microsoft Azure باستخدام حساب Azure الخاص بك.

  3. أنشئ حساب Azure storage أو ابحث عن حساب موجود.

    • اختر نفس المنطقة مثل Azure الذكاء الاصطناعي Search لتجنب رسوم النطاق الترددي.

    • اختر StorageV2 (الأغراض العامة V2).

  4. في مدخل Microsoft Azure، افتح صفحة Azure Storage الخاصة بك وأنشئ حاوية. يمكنك استخدام مستوى الوصول الافتراضي.

  5. في Container، حدد Upload لتحميل ملفات العينة. لاحظ أن لديك مجموعة واسعة من أنواع المحتويات، بما في ذلك الصور وملفات التطبيقات غير القابلة للبحث في النص الكامل بتنسيقاتها الأصلية.

    Screenshot of source files in Azure Blob Storage.

أنت الآن جاهز للانتقال إلى معالج استيراد البيانات.

تشغيل معالج Import data

  1. سجل الدخول إلى مدخل Microsoft Azure باستخدام حساب Azure الخاص بك.

  2. ابحث عن خدمة البحث وفي صفحة نظرة عامة، حدد استيراد البيانات على شريط الأوامر لإنشاء محتوى قابل للبحث في أربع خطوات.

    Screenshot of the Import data command.

الخطوة 1: إنشاء مصدر بيانات

  1. في «Connect to your data»، اختر «Azure Blob Storage».

  2. اختر اتصالا موجودا بحساب التخزين وحدد الحاوية التي أنشأتها. قم بتسمية مصدر البيانات، واستخدم القيم الافتراضية للباقي.

    Screenshot of the data source definition page.

    تابع إلى الخطوة التالية.

إذا تلقيت "خطأ في الكشف عن مخطط الفهرس من مصدر البيانات"، فلن يتمكن المفهرس الذي يقوم بالطاقة المعالج من الاتصال بمصدر البيانات. على الأرجح، يحتوي مصدر البيانات على حماية أمنية. جرب الحلول التالية ثم أعد تشغيل المعالج.

ميزة الأمان حل
يتطلب المورد أدوار Azure أو تعطيل مفاتيح الوصول الخاصة به الاتصال كخدمة موثوق بها أو الاتصال باستخدام هوية مدارة
المورد خلف جدار حماية IP إنشاء قاعدة واردة ل Search و لمدخل Azure
يتطلب المورد اتصال نقطة نهاية خاصة الاتصال عبر نقطة نهاية خاصة

الخطوة 2: إضافة المهارات المعرفية

بعد ذلك، قم بتكوين تحسين الذكاء الاصطناعي «AI» لاستدعاء «OCR» وتحليل الصور ومعالجة اللغة الطبيعية.

  1. لهذا التشغيل السريع، نستخدم مورد خدمات Azure الذكاء الاصطناعي المجاني . تتكون عينة البيانات من 14 ملفا، لذلك فإن تخصيص 20 معاملة مجانا على خدمات Azure الذكاء الاصطناعي كاف لهذا التشغيل السريع.

    Screenshot of the Attach Azure AI services tab.

  2. قم بتوسيع Add enrichments وقم بإجراء ستة تحديدات.

    قم بتمكين OCR لإضافة مهارات تحليل الصور إلى صفحة المعالج.

    اختر التعرف على الكيان (الأشخاص والمؤسسات والمواقع) ومهارات تحليل الصور (العلامات والتسميات التوضيحية).

    Screenshot of the skillset definition page.

    تابع إلى الخطوة التالية.

الخطوة 3: تكوين الفهرس

يحتوي الفهرس على المحتوى القابل للبحث ويمكن لمعالج استيراد البيانات عادة إنشاء المخطط عن طريق أخذ عينات من مصدر البيانات. في هذه الخطوة، راجع مخطط قاعدة البيانات الذي جرى إنشاؤه وراجع أي إعدادات.

بالنسبة إلى هذا التشغيل السريع، يقوم المعالج بعمل جيد حيث يقوم بتعيين الإعدادات الافتراضية المعقولة:

  • تستند الحقول الافتراضية إلى خصائص بيانات التعريف للكائنات الثنائية كبيرة الحجم الموجودة، بالإضافة إلى الحقول الجديدة لإخراج الإثراء (على سبيل المثال، people، ، organizationslocations). يتم الاستدلال على أنواع البيانات من البيانات الوصفية وعينات البيانات.

  • مفتاح المستند الافتراضي هو metadata_storage_path (تم تحديده لأن الحقل يحتوي على قيم فريدة).

  • السمات الافتراضية قابلة للاستردادوالبحث. تسمح خاصية قابلية البحث بالبحث الكامل في حقل. يُقصد بقابلية الاسترداد أن قيم الحقول يمكن إرجاعها في النتائج. يفترض المعالج أنك تريد أن تكون هذه الحقول قابلة للاسترداد والبحث لأنك قمت بإنشائها عبر مجموعة المهارات. حدد قابل للتصفية إذا كنت تريد استخدام الحقول في تعبير عامل تصفية.

    Screenshot of the index definition page.

لا يعني وضع علامة على حقل على أنه قابل للاسترداد أن الحقل يجب أن يكون موجودا في نتائج البحث. يمكنك التحكم في تكوين نتائج البحث باستخدام معلمة استعلام التحديد لتحديد الحقول التي يجب تضمينها.

تابع إلى الخطوة التالية.

الخطوة 4: تكوين المفهرس

المفهرس يقود عملية الفهرسة. حيث يحدد اسم مصدر البيانات، والفهرس الهدف، وتكرار التنفيذ. ينشئ معالج استيراد البيانات عدة كائنات، بما في ذلك مفهرس يمكنك إعادة تعيينه وتشغيله بشكل متكرر.

  1. في صفحة المفهرس ، اقبل الاسم الافتراضي وحدد مرة واحدة.

    Screenshot of the indexer definition page.

  2. حدد إرسال لإنشاء المفهرس وتشغيله في وقت واحد.

مراقبة الحالة

حدد المفهرسات من جزء التنقل الأيمن لمراقبة الحالة، ثم حدد المفهرس. تستغرق الفهرسة المستندة إلى المهارات وقتا أطول من الفهرسة المستندة إلى النص، خاصة التعرف البصري على الحروف وتحليل الصور.

Screenshot of the indexer status page.

لعرض تفاصيل حول حالة التنفيذ، حدد نجاح (أو فشل) لعرض تفاصيل التنفيذ.

في هذا العرض التوضيحي، هناك بعض التحذيرات: "Could not execute skill because one or more skill input was invalid." يخبرك أن ملف PNG في مصدر البيانات لا يوفر إدخالا نصيا إلى "التعرف على الكيان". يحدث هذا التحذير لأن مهارة التعرف البصري على الحروف المصدر لم تتعرف على أي نص في الصورة، وبالتالي لم تتمكن من توفير إدخال نص إلى مهارة التعرف على الكيان المتلقي للمعلومات.

التحذيرات شائعة في تنفيذ مجموعة المهارات. عندما تصبح على دراية بكيفية تكرار المهارات عبر بياناتك، قد تبدأ في ملاحظة الأنماط ومعرفة التحذيرات التي يمكن تجاهلها بأمان.

الاستعلام في مستكشف «Search»

بعد إنشاء فهرس، استخدم مستكشف البحث لإرجاع النتائج.

  1. على اليسار، حدد الفهارس ثم حدد الفهرس. مستكشف البحث في علامة التبويب الأولى.

  2. أدخل سلسلة بحث للاستعلام عن الفهرس، مثل satya nadella . يقبل شريط البحث الكلمات الأساسية والعبارات المحاطة باقتباس وعوامل التشغيل ("Satya Nadella" +"Bill Gates" +"Steve Ballmer").

يتم إرجاع النتائج على أنها JSON مطولة، والتي قد يكون من الصعب قراءتها، خاصة في المستندات الكبيرة. تتضمن بعض النصائح للبحث في هذه الأداة الأساليب التالية:

  • قم بالتبديل إلى طريقة عرض JSON لتحديد المعلمات التي ينتجها الشكل.

  • إضافة select للحد من الحقول في النتائج.

  • أضف count لإظهار عدد التطابقات.

  • استخدم CTRL-F للبحث داخل JSON عن خصائص أو مصطلحات معينة.

    Screenshot of the Search explorer page.

فيما يلي بعض JSON التي يمكنك لصقها في طريقة العرض:

{
"search": "\"Satya Nadella\" +\"Bill Gates\" +\"Steve Ballmer\"",
"count": true,
"select": "content, people"
}

تلميح

سلاسل الاستعلام تكون حساسة لحالة الأحرف، حتى إذا كنت تحصل على رسالة "حقل غير معروف"، حدد Fields أو Index Definition (JSON) للتحقق من الاسم والحالة.

النقاط الرئيسية

لقد أنشأت الآن مجموعة المهارات الأولى وتعلمت الخطوات الأساسية للفهرسة المستندة إلى المهارات.

تتضمن بعض المفاهيم الرئيسية التي نأمل أن تكون قد التقطتها التبعيات. ترتبط مجموعة المهارات بالمفهرس، وتكون المفهرسات Azure ومحددة المصدر. على الرغم من أن هذا التشغيل السريع يستخدم Azure Blob Storage، إلا أن مصادر بيانات Azure الأخرى ممكنة. لمزيد من المعلومات، راجع المفهرسات في Azure الذكاء الاصطناعي Search.

مفهوم آخر مهم هو أن المهارات تعمل عبر أنواع المحتويات، وعند العمل مع محتوى غير متجانس، يتم تخطي بعض المدخلات. أيضًا ، قد تتجاوز الملفات أو الحقول الكبيرة حدود المفهرس لطبقة الخدمة لديك. من الطبيعي أن ترى تحذيرات عند وقوع هذه الأحداث.

يتم توجيه الإخراج إلى فهرس بحث، وهناك تعيين بين أزواج قيمة الاسم التي تم إنشاؤها أثناء الفهرسة والحقول الفردية في الفهرس. داخليا، يقوم المعالج بإعداد شجرة إثراء وتحديد مجموعة المهارات، وإنشاء ترتيب العمليات والتدفق العام. يتم إخفاء هذه الخطوات في المعالج، ولكن عندما تبدأ في كتابة التعليمات البرمجية، تصبح هذه المفاهيم مهمة.

وأخيرًا، لقد تعلمت أنه يمكنك التحقق من المحتوى عن طريق الاستعلام عن الفهرس. في النهاية، ما يوفره Azure الذكاء الاصطناعي Search هو فهرس قابل للبحث، والذي يمكنك الاستعلام به إما باستخدام بناء جملة الاستعلام البسيط أو الموسع بالكامل. الفهرس الذي يحتوي على حقول محسّنة مثل أي فهرس آخر. إذا كنت ترغب في دمج محللات قياسية أو مخصصة أو ملفات تعريف تسجيل النقاط أو المرادفات أو التنقل ذي الواجهات أو البحث الجغرافي أو أي ميزة بحث Azure الذكاء الاصطناعي أخرى، يمكنك بالتأكيد القيام بذلك.

تنظيف الموارد

عندما تعمل على اشتراكك الخاص، من الأفضل أن تُحدد في نهاية المشروع ما إذا كنت لا تزال بحاجة إلى الموارد التي أنشأتها أو لا. الموارد المتبقية قيد التشغيل يمكن أن تكلفك المال. يمكنك حذف الموارد بشكل فردي أو حذف مجموعة الموارد لحذف تشكيلة الموارد بأكملها.

يمكن العثور على الموارد وإدارتها في المدخل الإلكتروني، باستخدامAll resources أو رابط Resource groups الموجود في جزء التنقل الأيسر.

إذا كنت تستخدم خدمة مجانية، فتذكر أنك تقتصر على ثلاثة فهارس ومفهرسات ومصادر بيانات. يمكنك حذف العناصر الفردية في المدخل لعدم تجاوز الحد المسموح به.

الخطوات التالية

يمكنك إنشاء مجموعات المهارات باستخدام المدخل أو .NET SDK أو REST API. لتعزيز معرفتك، جرب واجهة برمجة تطبيقات REST باستخدام عميل REST والمزيد من بيانات العينة.