المهارة المعرفية للكشف عن معلومات التعريف الشخصية (PII)

تستخرج مهارة PII Detection المعلومات الشخصية من نص إدخال وتمنحك خيار إخفاءها. تستخدم هذه المهارة نماذج الكشف المتوفرة في Azure الذكاء الاصطناعي Language.

إشعار

ترتبط هذه المهارة بخدمات Azure الذكاء الاصطناعي وتتطلب موردا قابلا للفوترة للمعاملات التي تتجاوز 20 مستندا لكل مفهرس يوميا. يتم فرض رسوم على تنفيذ المهارات المضمنة بسعر الدفع حسب الاستخدام لخدمات Azure الذكاء الاصطناعي الحالية.

@odata.type

Microsoft.Skills.Text.PIIDetectionSkill

حدود البيانات

يجب أن يكون الحد الأقصى لحجم السجل 50000 حرف كما يتم قياسه بواسطة String.Length. يمكنك استخدام مهارة تقسيم النص لتقسيم البيانات. تعيين طول الصفحة إلى 5000 للحصول على أفضل النتائج.

معلمات المهارة

المعلمات حساسة لحالة الأحرف وكلها اختيارية.

اسم المعلمة ‏‏الوصف
defaultLanguageCode (اختياري) رمز اللغة الذي يجب تطبيقه على المستندات التي لا تحدد اللغة بشكل صريح. إذا لم يتم تحديد رمز اللغة الافتراضي، فإن اللغة الإنجليزية (en) هي التعليمة البرمجية للغة الافتراضية.
راجع القائمة الكاملة للغات المدعومة.
minimumPrecision قيمة بين 0.0 و1.0. إذا كانت درجة الثقة (في piiEntities الإخراج) أقل من القيمة المحددة minimumPrecision ، فلن يتم إرجاع الكيان أو إخفاءه. الافتراضي هو 0.0.
maskingMode معلمة توفر طرقا مختلفة لإخفاء المعلومات الشخصية المكتشفة في نص الإدخال. الخيارات التالية مدعومة:
  • "none" (افتراضي): لا يحدث إخفاء ولا maskedText يتم إرجاع الإخراج.
  • "replace": يستبدل الكيانات المكتشفة بالحرف المحدد في المعلمة maskingCharacter . يتم تكرار الحرف إلى طول الكيان المكتشف بحيث تتوافق الإزاحات بشكل صحيح مع كل من نص الإدخال والإخراج maskedText.
maskingCharacter الحرف المستخدم لإخفاء النص إذا تم تعيين المعلمة maskingMode إلى replace. الخيار التالي مدعوم: * (افتراضي). يمكن أن تكون null هذه المعلمة فقط إذا maskingMode لم يتم تعيينها إلى replace.
domain (اختياري) تقوم قيمة سلسلة، إذا تم تحديدها، بتعيين المجال إلى مجموعة فرعية من فئات الكيان. تتضمن القيم المحتملة: "phi" (الكشف عن المعلومات الصحية السرية فقط)، "none".
piiCategories (اختياري) إذا كنت تريد تحديد الكيانات التي يتم الكشف عنها وإرجاعها، فاستخدم هذه المعلمة الاختيارية (المعرفة كقوائم سلاسل) مع فئات الكيان المناسبة. يمكن أن تتيح لك هذه المعلمة أيضا الكشف عن الكيانات التي لم يتم تمكينها بصورة افتراضية للغة المستند. راجع فئات كيان المعلومات الشخصية المعتمدة للحصول على القائمة الكاملة.
modelVersion (اختياري) يحدد إصدار النموذج الذي يجب استخدامه عند استدعاء الكشف عن المعلومات الشخصية. يتم تعيينه افتراضيا إلى أحدث إصدار عند عدم تحديده. نوصي بعدم تحديد هذه القيمة ما لم تكن ضرورية.

إدخالات المهارات

اسم الإدخال ‏‏الوصف
languageCode سلسلة تشير إلى لغة السجلات. إذا لم يتم تحديد هذه المعلمة، يتم استخدام التعليمات البرمجية للغة الافتراضية لتحليل السجلات.
راجع القائمة الكاملة للغات المدعومة.
text النص المراد تحليله.

إخراجات المهارات

اسم الإخراج ‏‏الوصف
piiEntities صفيف من الأنواع المعقدة التي تحتوي على الحقول التالية:
  • "text" (المعلومات الفعلية للهوية الشخصية كما تم استخراجها)
  • "type"
  • "subType"
  • "score" (تعني القيمة الأعلى أنه من المرجح أن تكون كيانا حقيقيا)
  • "offset" (في نص الإدخال)
  • "length"

راجع فئات كيان المعلومات الشخصية المعتمدة للحصول على القائمة الكاملة.
maskedText يختلف هذا الإخراج حسب maskingMode. إذا كان maskingMode هو replace، فإن الإخراج هو نتيجة السلسلة للإخفاء الذي تم تنفيذه عبر نص الإدخال، كما هو موضح في maskingMode. إذا كان maskingMode ، noneفلا يوجد إخراج.

تعريف العينة

  {
    "@odata.type": "#Microsoft.Skills.Text.PIIDetectionSkill",
    "defaultLanguageCode": "en",
    "minimumPrecision": 0.5,
    "maskingMode": "replace",
    "maskingCharacter": "*",
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      }
    ],
    "outputs": [
      {
        "name": "piiEntities"
      },
      {
        "name": "maskedText"
      }
    ]
  }

عينة الإدخال

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Microsoft employee with ssn 859-98-0987 is using our awesome API's."
           }
      }
    ]
}

عينة الإخراج

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "piiEntities":[ 
           { 
              "text":"859-98-0987",
              "type":"U.S. Social Security Number (SSN)",
              "subtype":"",
              "offset":28,
              "length":11,
              "score":0.65
           }
        ],
        "maskedText": "Microsoft employee with ssn *********** is using our awesome API's."
      }
    }
  ]
}

يتم إرجاع الإزاحات التي تم إرجاعها للكيانات في إخراج هذه المهارة مباشرة من واجهات برمجة تطبيقات خدمة اللغة، مما يعني أنه إذا كنت تستخدمها للفهرسة في السلسلة الأصلية، يجب استخدام فئة StringInfo في .NET لاستخراج المحتوى الصحيح. لمزيد من المعلومات، راجع دعم اللغات المتعددة والرموز التعبيرية في ميزات خدمة اللغة.

الأخطاء والتحذيرات

إذا كان رمز اللغة للمستند غير مدعوم، يتم إرجاع تحذير ولا يتم استخراج أي كيانات. إذا كان النص فارغا، فسيتم إرجاع تحذير. إذا كان النص أكبر من 50000 حرف، يتم تحليل أول 50000 حرف فقط ويتم إصدار تحذير.

إذا كانت المهارة ترجع تحذيرا، فقد يكون الإخراج maskedText فارغا، مما يمكن أن يؤثر على أي مهارات انتقال البيانات من الخادم التي تتوقع الإخراج. لهذا السبب، تأكد من التحقق من جميع التحذيرات المتعلقة بالإخراج المفقود عند كتابة تعريف مجموعة المهارات الخاصة بك.

(راجع أيضًا )