Kognitiver Skill „Erkennung personenbezogener Informationen“ (Personally Identifiable Information, PII)
Die Qualifikation PII-Erkennung extrahiert persönliche Informationen aus einem Eingabetext und bietet Ihnen die Möglichkeit, sie zu maskieren. Bei diesem Skill werden die Erkennungsmodelle verwendet, die von Azure KI Language bereitgestellt werden.
Hinweis
Dieser Skill ist an Azure KI Services gebunden und erfordert eine abrechenbare Ressource für Transaktionen, die 20 Dokumente pro Indexer und Tag überschreiten. Die Ausführung integrierter Skills wird nach dem bestehenden nutzungsbasierten Preis für Azure KI Services berechnet.
@odata.type
Microsoft.Skills.Text.PIIDetectionSkill
Datengrenzwerte
Die maximale Größe eines Datensatzes beträgt 50.000 Zeichen (gemessen durch String.Length
). Sie können die Textteilungskompetenz für Datenabschnitte verwenden. Legen Sie die Seitenlänge auf 5000 fest, um die besten Ergebnisse zu erzielen.
Skillparameter
Bei den Parametern, die alle optional sind, wird die Groß-/Kleinschreibung beachtet.
Parametername | Beschreibung |
---|---|
defaultLanguageCode |
(Optional) Der Sprachcode, der auf Dokumente angewendet wird, in denen die Sprache nicht explizit angegeben ist. Wenn der Standardsprachencode nicht angegeben ist, ist Englisch (en) der Standardsprachencode. Siehe die vollständige Liste der unterstützten Sprachen. |
minimumPrecision |
Ein Wert zwischen 0,0 und 1,0. Wenn die Konfidenzbewertung (in der piiEntities Ausgabe) niedriger als der festgelegte minimumPrecision Wert ist, wird die Entität nicht zurückgegeben oder maskiert. Der Standard ist 0,0. |
maskingMode |
Ein Parameter, der verschiedene Methoden bereitstellt, um die persönlichen Informationen zu maskieren, die im Eingabetext erkannt wurden. Die folgenden Optionen werden unterstützt:
|
maskingCharacter |
Das Zeichen, das zum Maskieren des Texts verwendet wird, wenn der Parameter maskingMode auf replace festgelegt ist. Die folgende Option wird unterstützt: * (Standard). Dieser Parameter kann nur dann sein null , wenn maskingMode er nicht auf replace . |
domain |
(Optional) Wenn angegeben, legt ein Zeichenfolgenwert die Domäne auf eine Teilmenge der Entitätskategorien fest. Mögliche Werte sind: "phi" (nur vertrauliche Informationen zur Gesundheit erkennen), "none" . |
piiCategories |
(Optional) Wenn Sie angeben möchten, welche Entitäten erkannt und zurückgegeben werden, verwenden Sie diesen optionalen Parameter (definiert als Eine Liste von Zeichenfolgen) mit den entsprechenden Entitätskategorien. Mit diesem Parameter lassen sich auch Entitäten erkennen, die für Ihre Dokumentsprache standardmäßig nicht aktiviert sind. Die vollständige Liste finden Sie unter Unterstützte Entitätskategorien für personenbezogene Informationen. |
modelVersion |
(Optional) Gibt die Version des Modells an, das beim Aufrufen der Erkennung personenbezogener Informationen verwendet werden soll. Sie wird standardmäßig auf die neueste Version festgelegt, wenn sie nicht angegeben ist. Es wird empfohlen, diesen Wert nur anzugeben, wenn es notwendig ist. |
Skilleingaben
Eingabename | Beschreibung |
---|---|
languageCode |
Eine Zeichenfolge, die die Sprache der Datensätze angibt. Wenn dieser Parameter nicht angegeben ist, wird der Standardsprachcode zur Analyse der Datensätze verwendet. Siehe die vollständige Liste der unterstützten Sprachen. |
text |
Der zu analysierende Text |
Skillausgaben
Ausgabename | Beschreibung |
---|---|
piiEntities |
Ein Array mit komplexen Typen und den folgenden Feldern:
Die vollständige Liste finden Sie unter Unterstützte Entitätskategorien für personenbezogene Informationen. |
maskedText |
Diese Ausgabe variiert je nach maskingMode . Wenn maskingMode dies der Wert ist replace , ist die Ausgabe das Zeichenfolgenergebnis der maskierung, die über den Eingabetext ausgeführt wird, wie in der Beschreibung beschrieben maskingMode . Wenn maskingMode ja none , gibt es keine Ausgabe. |
Beispieldefinition
{
"@odata.type": "#Microsoft.Skills.Text.PIIDetectionSkill",
"defaultLanguageCode": "en",
"minimumPrecision": 0.5,
"maskingMode": "replace",
"maskingCharacter": "*",
"inputs": [
{
"name": "text",
"source": "/document/content"
}
],
"outputs": [
{
"name": "piiEntities"
},
{
"name": "maskedText"
}
]
}
Beispieleingabe
{
"values": [
{
"recordId": "1",
"data":
{
"text": "Microsoft employee with ssn 859-98-0987 is using our awesome API's."
}
}
]
}
Beispielausgabe
{
"values": [
{
"recordId": "1",
"data" :
{
"piiEntities":[
{
"text":"859-98-0987",
"type":"U.S. Social Security Number (SSN)",
"subtype":"",
"offset":28,
"length":11,
"score":0.65
}
],
"maskedText": "Microsoft employee with ssn *********** is using our awesome API's."
}
}
]
}
Die für Entitäten in der Ausgabe dieser Fähigkeit zurückgegebenen Offsets werden direkt von den Sprachdienst-APIs zurückgegeben, was bedeutet, dass Sie, wenn Sie sie zum Indizieren in die ursprüngliche Zeichenfolge verwenden, die StringInfo-Klasse in .NET verwenden, um den richtigen Inhalt zu extrahieren. Weitere Informationen finden Sie unter Mehrsprachige und Emoji-Unterstützung in Sprachdienstfeatures.
Fehler und Warnungen
Wird der Sprachcode für das Dokument nicht unterstützt, wird eine Warnung zurückgegeben, und es werden keine Entitäten extrahiert. Wenn Ihr Text leer ist, wird eine Warnung zurückgegeben. Wenn Ihre Text mehr als 50.000 Zeichen umfasst, werden nur die ersten 50.000 Zeichen analysiert und eine Warnung ausgegeben.
Wenn die Qualifikation eine Warnung zurückgibt, ist der ausgegebene maskedText
möglicherweise leer, was sich auf alle nachfolgenden Qualifikationen auswirken kann, die die Ausgabe erwarten. Überprüfen Sie aus diesem Grund alle Warnungen, die es hinsichtlich fehlender Ausgabe gibt, wenn Sie eine Skillsetdefinition schreiben.