Kognitiver Skill „Erkennung personenbezogener Informationen“ (Personally Identifiable Information, PII)

2024-09-01

Die Qualifikation PII-Erkennung extrahiert persönliche Informationen aus einem Eingabetext und bietet Ihnen die Möglichkeit, sie zu maskieren. Bei diesem Skill werden die Erkennungsmodelle verwendet, die von Azure KI Language bereitgestellt werden.

Hinweis

Dieser Skill ist an Azure KI Services gebunden und erfordert eine abrechenbare Ressource für Transaktionen, die 20 Dokumente pro Indexer und Tag überschreiten. Die Ausführung integrierter Fähigkeiten wird zum Standardpreis für Azure AI-Dienste berechnet.

@odata.type

Microsoft.Skills.Text.PIIDetectionSkill

Datengrenzwerte

Die maximale Größe eines Datensatzes beträgt 50.000 Zeichen (gemessen durch String.Length). Sie können die Textteilungskompetenz für Datenabschnitte verwenden. Legen Sie die Seitenlänge auf 5000 fest, um die besten Ergebnisse zu erzielen.

Skillparameter

Bei den Parametern, die alle optional sind, wird die Groß-/Kleinschreibung beachtet.

Parametername	Beschreibung
`defaultLanguageCode`	(Optional) Der Sprachcode, der auf Dokumente angewendet wird, in denen die Sprache nicht explizit angegeben ist. Wenn der Standardsprachencode nicht angegeben ist, ist Englisch (en) der Standardsprachencode. Siehe die vollständige Liste der unterstützten Sprachen.
`minimumPrecision`	Ein Wert zwischen 0,0 und 1,0. Wenn die Konfidenzbewertung (in der `piiEntities` Ausgabe) niedriger als der festgelegte `minimumPrecision` Wert ist, wird die Entität nicht zurückgegeben oder maskiert. Der Standard ist 0,0.
`maskingMode`	Ein Parameter, der verschiedene Methoden bereitstellt, um die persönlichen Informationen zu maskieren, die im Eingabetext erkannt wurden. Die folgenden Optionen werden unterstützt: `"none"` (Standard): Es tritt keine Maskierung auf, und die `maskedText` Ausgabe wird nicht zurückgegeben. `"replace"`: Ersetzt die erkannten Entitäten durch das im `maskingCharacter`-Parameter angegebene Zeichen. Das Zeichen wird an die Länge der erkannten Entität wiederholt, sodass die Offsets sowohl dem Eingabetext als auch der Ausgabe `maskedText`korrekt entsprechen.
`maskingCharacter`	Das Zeichen, das zum Maskieren des Texts verwendet wird, wenn der Parameter `maskingMode` auf `replace` festgelegt ist. Die folgende Option wird unterstützt: `*` (Standard). Dieser Parameter kann nur dann sein `null` , wenn `maskingMode` er nicht auf `replace`.
`domain`	(Optional) Wenn angegeben, legt ein Zeichenfolgenwert die Domäne auf eine Teilmenge der Entitätskategorien fest. Mögliche Werte sind: `"phi"` (nur vertrauliche Informationen zur Gesundheit erkennen), `"none"`.
`piiCategories`	(Optional) Wenn Sie angeben möchten, welche Entitäten erkannt und zurückgegeben werden, verwenden Sie diesen optionalen Parameter (definiert als Eine Liste von Zeichenfolgen) mit den entsprechenden Entitätskategorien. Mit diesem Parameter lassen sich auch Entitäten erkennen, die für Ihre Dokumentsprache standardmäßig nicht aktiviert sind. Die vollständige Liste finden Sie unter Unterstützte Entitätskategorien für personenbezogene Informationen.
`modelVersion`	(Optional) Gibt die Version des Modells an, das beim Aufrufen der Erkennung personenbezogener Informationen verwendet werden soll. Sie wird standardmäßig auf die neueste Version festgelegt, wenn sie nicht angegeben ist. Es wird empfohlen, diesen Wert nur anzugeben, wenn es notwendig ist.

Skilleingaben

Eingabename	Beschreibung
`languageCode`	Eine Zeichenfolge, die die Sprache der Datensätze angibt. Wenn dieser Parameter nicht angegeben ist, wird der Standardsprachcode zur Analyse der Datensätze verwendet. Siehe die vollständige Liste der unterstützten Sprachen.
`text`	Der zu analysierende Text

Skillausgaben

Ausgabename Beschreibung

Ausgabename	Beschreibung
`piiEntities`	Ein Array mit komplexen Typen und den folgenden Feldern: `"text"` (Die tatsächlichen personenbezogenen Informationen wie extrahiert) `"type"` `"subType"` `"score"` (ein höherer Wert bedeutet, dass es sich mit höherer Wahrscheinlichkeit um eine echte Entität handelt) `"offset"` (in den Eingabetext) `"length"` Die vollständige Liste finden Sie unter Unterstützte Entitätskategorien für personenbezogene Informationen.
`maskedText`	Diese Ausgabe variiert je nach `maskingMode`. Wenn `maskingMode` dies der Wert ist `replace`, ist die Ausgabe das Zeichenfolgenergebnis der maskierung, die über den Eingabetext ausgeführt wird, wie in der Beschreibung beschrieben `maskingMode`. Wenn `maskingMode` ja `none`, gibt es keine Ausgabe.

piiEntities

Ein Array mit komplexen Typen und den folgenden Feldern:

"text" (Die tatsächlichen personenbezogenen Informationen wie extrahiert)
"type"
"subType"
"score" (ein höherer Wert bedeutet, dass es sich mit höherer Wahrscheinlichkeit um eine echte Entität handelt)
"offset" (in den Eingabetext)
"length"

Die vollständige Liste finden Sie unter Unterstützte Entitätskategorien für personenbezogene Informationen.

maskedText Diese Ausgabe variiert je nach maskingMode. Wenn maskingMode dies der Wert ist replace, ist die Ausgabe das Zeichenfolgenergebnis der maskierung, die über den Eingabetext ausgeführt wird, wie in der Beschreibung beschrieben maskingMode. Wenn maskingMode ja none, gibt es keine Ausgabe.

Beispieldefinition

  {
    "@odata.type": "#Microsoft.Skills.Text.PIIDetectionSkill",
    "defaultLanguageCode": "en",
    "minimumPrecision": 0.5,
    "maskingMode": "replace",
    "maskingCharacter": "*",
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      }
    ],
    "outputs": [
      {
        "name": "piiEntities"
      },
      {
        "name": "maskedText"
      }
    ]
  }

Beispieleingabe

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Microsoft employee with ssn 859-98-0987 is using our awesome API's."
           }
      }
    ]
}

Beispielausgabe

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "piiEntities":[ 
           { 
              "text":"859-98-0987",
              "type":"U.S. Social Security Number (SSN)",
              "subtype":"",
              "offset":28,
              "length":11,
              "score":0.65
           }
        ],
        "maskedText": "Microsoft employee with ssn *********** is using our awesome API's."
      }
    }
  ]
}

Die für Entitäten in der Ausgabe dieser Fähigkeit zurückgegebenen Offsets werden direkt von den Sprachdienst-APIs zurückgegeben, was bedeutet, dass Sie, wenn Sie sie zum Indizieren in die ursprüngliche Zeichenfolge verwenden, die StringInfo-Klasse in .NET verwenden, um den richtigen Inhalt zu extrahieren. Weitere Informationen finden Sie unter Mehrsprachige und Emoji-Unterstützung in Sprachdienstfeatures.

Fehler und Warnungen

Wird der Sprachcode für das Dokument nicht unterstützt, wird eine Warnung zurückgegeben, und es werden keine Entitäten extrahiert. Wenn Ihr Text leer ist, wird eine Warnung zurückgegeben. Wenn Ihre Text mehr als 50.000 Zeichen umfasst, werden nur die ersten 50.000 Zeichen analysiert und eine Warnung ausgegeben.

Wenn die Qualifikation eine Warnung zurückgibt, ist der ausgegebene maskedText möglicherweise leer, was sich auf alle nachfolgenden Qualifikationen auswirken kann, die die Ausgabe erwarten. Überprüfen Sie aus diesem Grund alle Warnungen, die es hinsichtlich fehlender Ausgabe gibt, wenn Sie eine Skillsetdefinition schreiben.