ملاحظة شفافية لغة Azure في أدوات Foundry

مهم

الترجمات غير الإنجليزية متوفرة للراحة فقط. يرجى مراجعة EN-US نسخة هذا المستند للحصول على النسخة النهائية.

ما هي مذكرة الشفافية؟

يشمل نظام الذكاء الاصطناعي ليس فقط التكنولوجيا، بل يشمل أيضا الأشخاص الذين سيستخدمونه، والأشخاص الذين سيتأثرون بها، والبيئة التي يتم نشره فيها. يتطلب إنشاء نظام مناسب لغرضه المقصود فهم كيفية عمل التقنية، وقدراتها وقيودها، وكيفية تحقيق أفضل أداء. تهدف ملاحظات الشفافية من Microsoft إلى مساعدتك على فهم كيفية عمل تقنيات الذكاء الاصطناعي لدينا، والخيارات التي يمكن لمالكي الأنظمة اتخاذها والتي تؤثر على أداء النظام وسلوكه، وأهمية التفكير في النظام ككل، بما في ذلك التكنولوجيا والأشخاص والبيئة. يمكنك استخدام ملاحظات الشفافية عند تطوير أو نشر نظامك الخاص، أو مشاركتها مع الأشخاص الذين سيستخدمون نظامك أو سيتأثرون به.

تعد ملاحظات الشفافية من Microsoft جزءا من جهد أوسع في Microsoft لتطبيق مبادئ الذكاء الاصطناعي لدينا عمليا. لمعرفة المزيد، راجع Microsoft مبادئ الذكاء الاصطناعي.

أساسيات لغة Azure في أدوات Foundry

مقدمة

لغة هي خدمة سحابية توفر ميزات معالجة اللغة الطبيعية (NLP) لتعدين النصوص وتحليل النصوص، بما في ذلك الميزات التالية:

اقرأ النظرة العامة للحصول على مقدمة عن كل ميزة وراجع أمثلة الاستخدام. راجع أدلة الكيفية ومرجع واجهة برمجة التطبيقات لفهم المزيد من التفاصيل حول ما تفعله كل ميزة وما الذي يعيده النظام.

تحتوي هذه المقالة على إرشادات أساسية حول كيفية استخدام ميزات اللغة بمسؤولية. اقرأ المعلومات العامة أولا ثم انتقل إلى المقال المحدد إذا كنت تستخدم إحدى الميزات أدناه.

ملاحظة الشفافية للاعتراف بالكيان المسمى
[ملاحظة شفافية لمعلومات تعريفية شخصية](/azure/ai-foundry/responsible-ai/language-service/transparency-note-personally-identifiable-information
[ملاحظة شفافية لتحليلات النصوص الصحية](/azure/ai-foundry/responsible-ai/language-service/transparency-note-health
ملاحظة شفافية لاستخراج الكلمات المفتاحية
ملاحظة شفافية لاكتشاف اللغة
ملاحظة الشفافية لتحليل المشاعر
ملاحظة شفافية للإجابة على الأسئلة
ملاحظة شفافية للتلخيص
ملاحظة شفافية للتعرف على الكيان المسمى المخصص (NER مخصص)
ملاحظة شفافية لتصنيف النصوص المخصصة
ملاحظة شفافية لفهم لغة المحادثة

القدرات

حالات الاستخدام

يمكن استخدام خدمات اللغة في سيناريوهات متعددة عبر صناعات متنوعة. بعض الأمثلة المدرجة حسب الميزة هي:

استخدم ميزة التعرف على الكيانات المسماة المخصصة لاستخراج المعرفة لتعزيز البحث الدلالي. البحث هو أساس أي تطبيق يعرض محتوى نصي للمستخدمين. تشمل السيناريوهات الشائعة البحث في الكتالوج أو الوثائق، أو البحث عن المنتجات بالتجزئة، أو التنقيب عن المعرفة في علم البيانات. ترغب العديد من المؤسسات في مختلف الصناعات في بناء تجربة بحث غنية على محتوى خاص وغير متجانس، يشمل المستندات المنظمة وغير المهيكلة. كجزء من خط أنابيب الإنتاج، يمكن للمطورين استخدام NER مخصص لاستخراج الكيانات ذات الصلة من النص في صناعتهم. يمكن استخدام هذه الكيانات لإثراء فهرسة الملف لتجربة بحث أكثر تخصيصا.
استخدم التعرف على الكيانات المسماة لتعزيز أو أتمتة عمليات الأعمال. على سبيل المثال، عند مراجعة مطالبات التأمين، يمكن تمييز الكيانات المعترف بها مثل الاسم والموقع لتسهيل المراجعة. أو يمكن إنشاء تذكرة دعم باسم العميل والشركة تلقائيا من بريد إلكتروني.
استخدم المعلومات الشخصية القابلة للتعريف لحذف بعض فئات المعلومات الشخصية من الوثائق لحماية الخصوصية. على سبيل المثال، إذا كانت سجلات الاتصال بالعملاء متاحة لممثلي الدعم من الخطوط الأولى، فقد ترغب الشركة في حذف معلومات شخصية غير ضرورية للعميل من سجل العميل للحفاظ على خصوصية العميل.
استخدم اكتشاف اللغة لاكتشاف اللغات لسير العمل التجاري. على سبيل المثال، إذا تلقت شركة بريدا إلكترونيا بلغات مختلفة من العملاء، يمكنها استخدام تقنية اكتشاف اللغة لتوجيه الرسائل عبر اللغة إلى المتحدثين الأصليين لتسهيل التواصل مع هؤلاء العملاء.
استخدم تحليل المشاعر لمراقبة اتجاهات التغذية الراجعة الإيجابية والسلبية بشكل عام. بعد تقديم منتج جديد، يمكن للبائع استخدام خدمة المشاعر لمراقبة عدة منصات تواصل اجتماعي بحثا عن إشارات للمنتج بمشاعرهم. يمكنهم مراجعة المشاعر السائدة في اجتماعات المنتجات الأسبوعية.
استخدم الملخص لاستخراج المعلومات الأساسية من المقالات الإخبارية العامة. لإنتاج رؤى مثل الاتجاهات وتسليط الضوء على الأخبار.
استخدم استخراج العبارات المفتاحية لعرض الاتجاهات المجمعة في بيانات النص. على سبيل المثال، يمكن إنشاء سحابة كلمات باستخدام عبارات مفتاحية للمساعدة في تصور المفاهيم الرئيسية في التعليقات أو الملاحظات النصية. على سبيل المثال، يمكن لفندق إنشاء سحابة كلمات بناء على العبارات المفتاحية المحددة في تعليقاته وقد يرى أن الناس يعلقون بشكل متكرر على الموقع والنظافة والموظفين المتعاونين.
استخدم Text Analytics for Health للحصول على رؤى واستخراج الإحصائيات. حدد الكيانات الطبية مثل الأعراض والأدوية والتشخيصات في الملاحظات السريرية والوثائق السريرية المتنوعة. استخدم هذه المعلومات لإنتاج رؤى وإحصائيات حول سكان المرضى، والبحث في الوثائق السريرية، والوثائق البحثية، والمنشورات.
استخدم تصنيف النصوص المخصص لفرز التذاكر تلقائيا عبر البريد الإلكتروني. تتلقى مراكز الدعم من جميع الأنواع عددا كبيرا من الرسائل الإلكترونية أو التذاكر التي تحتوي على نصوص ومرفقات غير منظمة وحرة. المراجعة في الوقت المناسب، والتقدير، والتوجيه إلى خبراء الموضوع داخل الفرق الداخلية أمر بالغ الأهمية. فرز البريد الإلكتروني بهذا الحجم يتطلب من الناس مراجعة وتوجيه الأقسام المناسبة، وهذا يتطلب وقتا ومواردا. يمكن استخدام تصنيف النصوص المخصص لتحليل النصوص الواردة، وفرز وتصنيف المحتوى ليتم توجيهه تلقائيا إلى الأقسام المعنية لمزيد من الإجراءات.
استخدم Conversational Language Understanding لبناء بوتات محادثة شاملة من البداية إلى النهاية. استخدم CLU لبناء وتدريب نموذج مخصص لفهم اللغة الطبيعية بناء على مجال معين وتعبيرات المستخدمين المتوقعة. دمجه مع أي روبوت حواري من طرف إلى طرف حتى يتمكن من معالجة وتحليل النصوص الواردة في الوقت الحقيقي لتحديد نية النص واستخراج معلومات مهمة منه. اجعل البوت يقوم بالإجراء المطلوب بناء على النية والمعلومات المستخرجة. مثال على ذلك هو بوت تجزئة مخصص للتسوق عبر الإنترنت أو طلب الطعام.
استخدم الإجابة على الأسئلة لدعم العملاء. في معظم سيناريوهات دعم العملاء، تطرح الأسئلة الشائعة بشكل متكرر. يتيح لك الإجابة على الأسئلة إنشاء روبوت دردشة فوري من محتوى الدعم الحالي، ويمكن لهذا الروبوت أن يعمل كنظام خط أمامي للتعامل مع استفسارات العملاء. إذا لم يتمكن البوت من الإجابة على الأسئلة، يمكن لمكونات إضافية المساعدة في تحديد السؤال وتحديد السؤال للتدخل البشري.

القيود

جودة النص الوارد إلى النظام ستؤثر على نتائجك.

ميزات اللغة تعالج النص فقط. دقة وتنسيق النص الوارد سيؤثر على أداء النظام. تأكد من مراعاة ما يلي:

قد تؤثر جودة نسخ الكلام على جودة النتائج. إذا كانت بياناتك المصدرية صوتية، تأكد من استخدام أعلى جودة من النسخ التلقائي والنسخ البشري لضمان أفضل أداء. فكر في استخدام نماذج نطق مخصصة للحصول على نتائج أفضل جودة.
غياب علامات الترقيم أو الغلاف القياسي قد يؤثر على جودة نتائجك. إذا كنت تستخدم نظام كلام مثل Azure Speech في Foundry Tools to Text، تأكد من اختيار خيار تضمين علامات الترقيم.
قد تؤثر جودة التعرف على الحروف البصرية (OCR) على جودة النظام. إذا كانت بيانات المصدر لديك صورا وتستخدم تقنية التعرف الضوئي على الحروف الضوئية لتوليد النص، فقد يؤثر النص المولد بشكل خاطئ على أداء النظام. فكر في استخدام نماذج OCR مخصصة للمساعدة في تحسين جودة النتائج.
إذا كانت بياناتك تتضمن أخطاء إملائية متكررة، فكر في استخدام Bing Spell Check لتصحيح الأخطاء الإملائية.
قد لا يتم تحديد البيانات الجدولية بشكل صحيح حسب طريقة إرسال نص الجدول إلى النظام. قيم كيف ترسل النصوص من الجداول في المستندات الأصلية إلى الخدمة. بالنسبة للجداول في المستندات، فكر في استخدام Azure Document Intelligence في Foundry Tools أو خدمة مشابهة. سيسمح لك ذلك بالحصول على المفاتيح والقيم المناسبة لإرسالها إلى لغة مع مفاتيح سياقية قريبة بما يكفي من القيم ليتمكن النظام من التعرف بشكل صحيح على الكيانات.
دربت Microsoft نماذج ميزات اللغة (باستثناء اكتشاف اللغة) باستخدام بيانات نصية بلغة طبيعية تتكون أساسا من جمل وفقرات مكتملة الشكل. لذلك، فإن استخدام هذه الخدمة للبيانات التي تشبه هذا النوع من النصوص بشكل أقرب سيحقق أفضل أداء. نوصي بتجنب استخدام هذه الخدمة لتقييم الجمل والعبارات غير المكتملة حيثما أمكن، حيث قد يكون الأداء أقل.
تدعم الخدمة فقط نصا بلغة واحدة. إذا كان نصك يتضمن عدة لغات مثل "The Sandwich was good"، فقد لا يكون الناتج دقيقا.
يجب أن يتطابق رمز اللغة مع لغة النص المدخل للحصول على نتائج دقيقة. إذا لم تكن متأكدا من لغة الإدخال، يمكنك استخدام ميزة اكتشاف اللغة.

أفضل الممارسات لتحسين أداء النظام

بعض ميزات اللغة تعود إلى درجات الثقة ويمكن تقييمها باستخدام النهج الموضح في الأقسام التالية. الميزات الأخرى التي لا تعطي درجة ثقة (مثل استخراج الكلمات المفتاحية والتلخيص) ستحتاج إلى تقييم باستخدام طرق مختلفة.

فهم درجات الثقة لتحليل المشاعر، والتعرف على الكيانات المسماة، واكتشاف اللغة، ووظائف الصحة

الشعور، والتعرف على الكيانات المسماة، واكتشاف اللغة، ووظائف الصحة كلها تعطي درجة ثقة كجزء من استجابة النظام. هذا مؤشر على مدى ثقة الخدمة في استجابة النظام. القيمة الأعلى تشير إلى أن الخدمة أكثر ثقة في دقة النتيجة. على سبيل المثال، يتعرف النظام على الكيان من فئة رقم رخصة القيادة الأمريكية في الرسالة 555 555 عندما يعطى النص "رقم رخصة القيادة الخاصة بي في نيويورك هو 555 555 555" بدرجة 0.75 وقد يتعرف على رقم رخصة القيادة الأمريكية في الرسالة 555 555 بدرجة 0.65 عند إعطاؤه النص "رقم رخصة القيادة الخاصة بي في نيويورك هو 555 555 555". بالنظر إلى السياق الأكثر تحديدا في المثال الأول، يكون النظام أكثر ثقة في استجابته. في كثير من الحالات، يمكن استخدام استجابة النظام دون فحص درجة الثقة. في حالات أخرى، يمكنك اختيار استخدام استجابة فقط إذا كانت درجة الثقة لديها أعلى من حد محدد لدرجة الثقة.

فهم وقياس الأداء

يتم قياس أداء ميزات اللغة من خلال فحص مدى قدرة النظام على التعرف على مفاهيم معالجة اللغة الطبيعية المدعومة (عند قيمة عتبة معينة مقارنة بحكم بشري). على سبيل المثال، في استخراج الكيانات المسماة (NER)، يمكن عد العدد الحقيقي لكيانات أرقام الهاتف في نص ما بناء على حكم البشر، ثم مقارنته مع مخرجات النظام من معالجة نفس النص. مقارنة الحكم البشري مع الكيانات المعترف بها من قبل النظام ستسمح لك بتصنيف الأحداث إلى نوعين من الأحداث الصحيحة (أو "الصحيحة") ونوعين من الأحداث الخاطئة (أو "الكاذبة").

النتيجة	صحيح/غير صحيح	التعريف	مثال
الإيجابي الحقيقي	صحيح	النظام يعطي نفس النتيجة المتوقعة من قاض بشري.	يتعرف النظام بشكل صحيح على كيان PII من فئة رقم الهاتف على الرسالة 1-234-567-8910 عند إعطاؤه النص: "يمكنك التواصل معي على رقم مكتبي 1-234-567-9810."
السلبية الحقيقية	صحيح	النظام لا يعيد نتيجة، وهذا يتماشى مع ما هو متوقع من الحكم البشري.	النظام لا يتعرف على أي كيان PII عند إعطاؤه النص: "يمكنك التواصل معي عبر رقم مكتبي."
الإيجابية الكاذبة	غير صحيح	النظام يعطي نتيجة لا يفعلها القاضي البشري.	النظام يتعرف بشكل خاطئ على كيان PII من فئة رقم الهاتف لرقم المكتب النصي عند إعطاؤه النص: "يمكنك التواصل معي عبر رقم مكتبي."
سلبي كاذب	غير صحيح	النظام لا يعطي نتيجة عندما يفعل القاضي البشري.	يخطئ النظام في إدخال كيان رقم هاتف PII على الرسالة 1-234-567-8910 عند إعطاؤه النص: "يمكنك التواصل معي على رقم مكتبي 1-234-567-9810."

ميزات اللغة لن تكون دائما صحيحة. من المحتمل أن تواجه أخطاء سلبية كاذبة وخاطئة إيجابية. من المهم أن تأخذ في الاعتبار كيف سيؤثر كل نوع من الأخطاء على نظامك. فكر جيدا في السيناريوهات التي لن يتم فيها التعرف على الأحداث الحقيقية وأين سيتم التعرف على الأحداث الخاطئة وما هي التأثيرات اللاحقة في التنفيذ. تأكد من بناء طرق لتحديد وتقديم الإبلاغ والرد على كل نوع من الأخطاء. خطط لمراجعة أداء نظامك المنطبق بشكل دوري لضمان التعامل مع الأخطاء بشكل مناسب.

كيفية تحديد عتبات درجة الثقة

يمكنك اختيار اتخاذ قرارات في نظامك بناء على درجة الثقة التي يعيدها النظام. يمكنك تعديل عتبة درجة الثقة التي يستخدمها نظامك لتلبية احتياجاتك. إذا كان من المهم أكثر تحديد جميع الحالات المحتملة لمفاهيم معالجة اللغة الطبيعية التي تريدها، يمكنك استخدام عتبة أقل. هذا يعني أنك قد تحصل على نتائج إيجابية كاذبة أكثر ولكن سلبيات كاذبة أقل. إذا كان من المهم لنظامك أن يتعرف فقط على الحالات الحقيقية للميزة التي تتصل بها، يمكنك استخدام عتبة أعلى. إذا استخدمت عتبة أعلى، قد تحصل على نتائج إيجابية كاذبة أقل ولكن سلبيات كاذبة أكثر. السيناريوهات المختلفة تتطلب أساليب مختلفة. بالإضافة إلى ذلك، قد لا يكون للقيم العتبية سلوك متسق عبر الميزات الفردية للغة وفئات الكيانات. على سبيل المثال، لا تفترض أن استخدام عتبة معينة لفئة NER رقم الهاتف سيكون كافيا لفئة NER أخرى، أو أن عتبة تستخدمها في NER ستعمل بطريقة مشابهة لتحليل المشاعر. لذلك، من الضروري أن تختبر نظامك بأي عتبات تفكر في استخدامها باستخدام بيانات حقيقية لتحديد تأثيرات قيم العتبات المختلفة لنظامك في السياق الذي سيستخدم فيه.

العدالة

في Microsoft، نسعى لتمكين كل شخص على وجه الأرض لتحقيق المزيد. جزء أساسي من هذا الهدف هو العمل على ابتكار تقنيات ومنتجات عادلة وشاملة. العدالة موضوع متعدد الأبعاد واجتماعي تقني ويؤثر على العديد من جوانب تطوير منتجاتنا. يمكنك معرفة المزيد عن نهج Microsoft في العدالة here.

أحد الأبعاد التي يجب أن نأخذها في الاعتبار هو مدى أداء النظام لمجموعات مختلفة من الناس. قد يشمل ذلك النظر في دقة النموذج بالإضافة إلى قياس أداء النظام الكامل. أظهرت الأبحاث أنه بدون جهد واع يركز على تحسين الأداء لجميع المجموعات، غالبا ما يكون من الممكن أن يختلف أداء نظام الذكاء الاصطناعي بين المجموعات بناء على عوامل مثل العرق، والإثنية، واللغة، والجنس، والعمر.

كل خدمة وميزة تختلف عن الأخرى، وقد لا تتطابق اختباراتنا تماما مع سياقك أو تغطي جميع السيناريوهات المطلوبة لحالتك. نشجع المطورين على تقييم معدلات الأخطاء للخدمة بدقة باستخدام بيانات واقعية تعكس حالة استخدامك، بما في ذلك الاختبار مع المستخدمين من مجموعات ديموغرافية مختلفة.

بالنسبة للغة، قد لا يكون لدى بعض اللهجات وأنواع اللغات ضمن لغاتنا المدعومة ونصوص من بعض الفئات الديموغرافية تمثيل كاف في مجموعات بيانات التدريب الحالية لدينا. نشجعك على مراجعة إرشاداتنا للاستخدام المسؤول، وإذا واجهت فروقا في الأداء، نشجعك على إبلاغنا.

يختلف الأداء بين الميزات واللغات

تدعم عدة لغات لكل ميزة لغة. قد تجد أن أداء ميزة معينة غير متوافق مع ميزة أخرى. أيضا، قد تجد أن أداء ميزة معينة غير متسق عبر لغات مختلفة.

الخطوات التالية

إذا كنت تستخدم أيا من الميزات أدناه، تأكد من مراجعة المعلومات المحددة لتلك الميزة.

راجع أيضا

أيضا، تأكد من مراجعة:

الملاحظات

هل كانت هذه الصفحة مفيدة؟

Last updated on 2026-04-01