Poznámka
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Přehled
Aby bylo možné přizpůsobit vlastní slovní zásobu zákazníka používanou k identifikaci entit (označovaných také jako kontext), entitySynonyms
umožňuje zákazníkům definovat vlastní synonyma pro konkrétní typy entit. Cílem této funkce je pomoct rozpoznat entity v kontextech, které model nezná, ale používají se ve vstupech zákazníka tím, že zajistí, aby byly jedinečné termíny zákazníka rozpoznány a správně přidruženy během procesu detekce.
Tím se přizpůsobí předem připravená služba PII, která je vytrénovaná tak, aby detekovala entity na základě obecného textu domény, který nemusí odpovídat vlastnímu vstupnímu slovníku zákazníka, například k zápisu "BAN" místo "InternationalBankAccountNumber".
To znamená, že detekce PII může zachytit citlivé informace, i když je napsaná v různých stylech, slangu nebo neformálním jazyce. Díky tomu bude systém lépe chránit soukromí v reálných situacích.
Důrazně doporučujeme, aby zákazníci nejprve testovali kvalitu předpovědí, aniž by zavedli synonyma a používali je pouze v případě, že model nefunguje dobře. Například "Org" může být něco, co model už rozumí jako "organizace" a není nutné používat funkci Synonyma.
Po otestování služby na jejich datech můžou zákazníci využít tyto možnosti entitySynonyms
:
- Zadejte konkrétní entity v předem připravené službě, pro které jsou v jejich vstupním slovníku synonymní kontextová slova na míru.
- Uveďte vlastní synonyma.
- Zadejte jazyk každého synonyma.
Schéma rozhraní API pro parametr entitySynoyms
{
"parameter":
"entitySynonyms": [
{
"entityType": "InternationalBankAccountNumber",
"synonyms": [ {"synonym": "BAN", "language": "en"} ]
}
]
}
Pokyny k používání
- Synonyma musí být omezena na fráze, které přímo odkazují na typ, a zachovat sémantickou správnost. Například pro typ
InternationalBankAccountNumber
entity může být platné synonymum "Financial Account Number" (Číslo finančního účtu) nebo "FAN". Slovo "vklad" ale může být spojené s typem, protože nemá přímo význam čísla bankovního účtu, a proto by nemělo být použito. - Synonyma by měla být nezávislá na zemi. Například "německý pas" by neměl být užitečný pro zahrnutí.
- Synonyma nelze opakovaně použít pro více než jeden typ entity.
- Tato funkce rozpoznávání synonym přijímá pouze podmnožinu typů entit podporovaných službou. Mezi podporované typy entit a ukázková synonyma patří:
Podporovaný typ entity | Typ entity | Příklady synonym |
---|---|---|
Číslo směrování ABA | ABARoutingNumber | Směrové tranzitní číslo (RTN) |
Adresa | Adresa | Moje místo je |
Věk | Věk | Roky staré, věk v letech, aktuální věk, věk osoby, biologický věk |
Číslo bankovního účtu | Číslo bankovního účtu | Číslo bankovního účtu, číslo spoření, kontrolní číslo účtu, číslo finančního účtu |
Číslo platební karty | Číslo kreditní karty | Číslo CC, číslo platební karty, číslo úvěrového účtu. |
Datum | Datum a čas | Zadané datum, specifikované datum |
Datum narození | Datum narození | Narozeniny, DOB, datum narození |
Číslo mezinárodního bankovního účtu | Mezinárodní číslo bankovního účtu | IBAN, mezinárodní číslo bankovního účtu. |
Organizace | Organizace | společnost, podnik, firma, korporace, agentura, skupina, instituce, subjekt, právnická osoba, strana, respondent, žalobce, obžalovaný, jurisdikce, partner, poskytovatel, zařízení, praxe, síť, instituce, podnik, s.r.o., a.s., v.o.s., založená, zaměstnavatel, značka, dceřiná společnost |
Osoba | Osoba | Jméno, jednotlivec, držitel účtu |
Typ osoby | TypOsoby | Role, název, pozice |
Telefonní číslo | Telefonní číslo | Pevná linka, mobilní telefon, mobil |
Swift Code | SWIFTCode | Kód SWIFT, BIC (kód bankovního identifikátoru), identifikátor SWIFT |
Přizpůsobení výstupu PII zadáním hodnot, které se mají vyloučit
Tato valueExclusionPolicy
možnost umožňuje zákazníkům přizpůsobit službu PII pro scénáře, kdy zákazníci dávají přednost tomu, aby určité výrazy nebyly rozpoznány ani redigovány, i když tyto výrazy spadají do kategorie PII, o detekci které mají zájem. Například policejní oddělení může chtít, aby osobní identifikátory byly ve většině případů upraveny s výjimkou výrazů jako "policejní důstojník", "podezřelý" a "svědek".
V následujícím příkladu valueExclusionPolicy
můžou zákazníci pomocí možnosti určit seznam hodnot, které by nechtěli zjistit nebo redigovat ze vstupního textu. V následujícím příkladu platí, že pokud uživatel zadá hodnotu "1 Microsoft Way, Redmond, WA 98052, US", i když je entita Adresa zapnutá, tato hodnota není redactována ani uvedena ve vráceném výstupu datové části rozhraní API.
Podmnožina zadané vyloučené hodnoty, například "1 Microsoft Way", není vyloučena.
Vstup
{
"kind": "PiiEntityRecognition",
"parameters": {
"modelVersion": "latest",
"redactionPolicy": {
"policyKind": "characterMask",
"redactionCharacter": "-"
},
"valueExclusionPolicy": {
"caseSensitive": false,
"excludedValues": {
"1 Microsoft Way, Redmond, WA 98052",
"1045 La Avenida St, Mountain View, CA 94043"
}
}
},
"analysisInput": {
"documents": [
{
"id": "1",
"text": "The police and John Doe inspected the storage garages located at 123 Main St, 1 Microsoft Way, Redmond, WA 98052, 456 Washington Blvd, Portland, OR, and 1045 La Avenida St, Mountain View, CA 94043"
}
]
}
}
Výstup
{
"kind": "PiiEntityRecognitionResults",
"results": {
"documents": [
{
"redactedText": "The police and John Doe inspected the storage garages located at **********, 1 Microsoft Way, Redmond, WA 98052, ********************************, and 1045 La Avenida St, Mountain View, CA 94043"
"id": "1",
"entities": [
{
"text": "John Doe",
"category": "Person",
"offset": 16,
"length": 5,
"confidenceScore": 0.98
}
],
"warnings": []
}
],
"errors": [],
"modelVersion": "2021-01-15"
}
}
Přizpůsobení detekce PII pomocí vlastního regulárního výrazu (k dispozici pouze pro textový kontejner PII)
Zákazníci teď mohou přizpůsobit zjišťování služby PII zadáním vlastního regulárního výrazu pomocí konfiguračního souboru pro rozpoznávání regulárních výrazů. V našich příručkách s návody ke kontejneru najdete kurz instalace a spouštění kontejnerů detekce identifikovatelných osobních údajů (PII).
Poznámka:
Tato možnost je k dispozici pouze pro kontejner Text PII.
docker run --rm -it -p 5000:5000 --memory 8g --cpus 1 \
mcr.microsoft.com/azure-cognitive-services/textanalytics/pii:{IMAGE_TAG} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY} \
UserRegexRuleFilePath={REGEX_RULE_FILE_PATH}
UserRegexRuleFilePath
je cesta k souboru pravidel regulárních výrazů definovaných uživatelem.
Formát souboru pro rozpoznávání regulárních výrazů
[
{
"name": "USSocialSecurityNumber", // category, type and tag to be returned. This name must be unique
"description": "Rule to identify USSocialSecurityNumber in text", // used to describe the category
"regexPatterns": [ // list of regex patterns to identify the entities
{
"id": "StrongSSNPattern", // id for the regex pattern
"pattern": "(?<!\\d)([0-9]{3}-[0-9]{2}-[0-9]{4}|[0-9]{3} [0-9]{2} [0-9]{4}|[0-9]{3}.[0-9]{2}.[0-9]{4})(?!\\d)", // regex pattern to provide matches
"matchScore": 0.65, // score to assign if the regex matches
"locales": [ // list of languages valid for this regex
"en"
]
},
{
"id": "WeakSSNPattern",
"pattern": "(?<!\\d)([0-9]{9})(?!\\d)",
"matchScore": 0.55,
"locales": [
"en"
]
}
],
"matchContext": { // patterns to give matches context
"hints": [
{
"hintText": "ssa(\\s*)number", // regex pattern to find to give a match context.
"boostingScore": 0.2, // score to boost match confidence if hint is found
"locales": [ // list of languages valid for this context
"en"
]
},
{
"hintText": "social(\\s*)security(\\s*)(#*)",
"boostingScore": 0.2,
"locales": [
"en"
]
}
],
}
}
]
Přehled každého parametru souboru pro rozpoznávání regulárních výrazů
Parametr | Dílčí parametry a popisy |
---|---|
name |
Kategorie, typ a značka, které se mají vrátit, pokud existuje shoda regulárních výrazů. |
decription |
(volitelné) Popis pravidla čitelného uživatelem |
regexPatterns |
Seznam vzorů regulárních výrazů použitých k vyhledání entit - id : Identifikátor vzoru regulárního výrazu.- matchScore : Hodnocení důvěryhodnosti pro shody regulárních výrazů.- locales : Jazyky platné pro vzor regulárního výrazu. |
matchcontext |
Vzory regulárních výrazů poskytují kontext pro nalezené entity. Porovnávání kontextu je obousměrné vyhledávání od odpovídající entity, což zvyšuje skóre spolehlivosti, pokud je nalezena. Pokud více nápověd podporuje shodu, použije se nápověda s nejvyšším skóre. - hints : Seznam regexových vzorců poskytující kontext shodným entitám.- hintText : Vzor regulárního výrazu poskytující kontext odpovídajícím entitám.- boostingScore : (volitelné) Skóre přidané do skóre spolehlivosti z odpovídající entity.- locales : Jazyk platný pro hintText.- contextLimit : (volitelné) Vzdálenost od odpovídající entity k vyhledání kontextu. |
Logování
Chcete-li zobrazit informace o spuštěné regexRules
, přidejte následující vlastnost pro zapnutí ladicího protokolování: Logging:Console:LogLevel:Default=Debug
docker run --rm -it -p 5000:5000 --memory 8g --cpus 1 \
mcr.microsoft.com/azure-cognitive-services/textanalytics/pii:{IMAGE_TAG} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY} \
UserRegexRuleFilePath={REGEX_RULE_FILE_PATH} \
Logging:Console:LogLevel:Default=Debug
Omezení pravidel regulárních výrazů
- Názvy pravidel musí začínat "CE_"
- Názvy pravidel musí být jedinečné.
- Názvy pravidel mohou používat pouze alfanumerické znaky a podtržítka ("_")
- Vzory regulárních výrazů se řídí .NET formátem pro regulární výrazy. Další informace najdete v naší dokumentaci k regulárním výrazům .NET .