Poznámka
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Důležité
Překlady mimo angličtinu jsou k dispozici pouze pro usnadnění. Prosím nahlédněte do EN-US
verze tohoto dokumentu pro závaznou verzi.
Co je poznámka transparentnosti?
Důležité
Tento článek předpokládá, že znáte pokyny a osvědčené postupy pro jazyk Azure AI. Další informace najdete v poznámce k transparentnosti pro jazyk Azure AI.
Systém AI zahrnuje nejen technologii, ale také lidi, kteří ji budou používat, osoby, které ho budou ovlivněny, a prostředí, ve kterém je nasazené. Vytvoření systému, který je vhodný pro zamýšlený účel, vyžaduje pochopení, jak technologie funguje, její schopnosti a omezení a jak dosáhnout nejlepšího výkonu. Poznámky k transparentnosti od Microsoftu vám mají pomoct pochopit, jak naše technologie AI funguje, jaké volby můžou vlastníci systému provádět a které ovlivňují výkon a chování systému, a důležitost myšlení na celý systém, včetně technologie, lidí a prostředí. Poznámky transparentnosti můžete použít při vývoji nebo nasazení vlastního systému nebo je můžete sdílet s lidmi, kteří budou váš systém používat nebo budou ovlivněni.
Poznámky Microsoftu k transparentnosti jsou součástí širšího úsilí Microsoftu o to, aby naše principy AI zavedly do praxe. Další informace najdete v tématu Zodpovědné principy AI od Microsoftu.
Úvod do rozpoznávání pojmenovaných entit a identifikovatelných osobních údajů (PII)
Azure AI Language podporuje rozpoznávání pojmenovaných entit k identifikaci a kategorizaci informací v textu. Patří mezi ně obecné entity, jako jsou entity produktu a události a identifikovatelné osobní údaje (PII). Je možné rozpoznat širokou škálu osobních entit , jako jsou jména, organizace, adresy, telefonní čísla, čísla finančních účtů nebo kódy a státní správa a konkrétní identifikační čísla země nebo oblasti . Podmnožinou těchto osobních entit jsou chráněné zdravotní informace (PHI). Pokud v požadavku zadáte doménu=phi, získáte pouze vrácené entity PHI. Úplný seznam kategorií entit PII a PHI najdete v této tabulce. cs-CZ: Kromě toho rozpoznávání PII podporuje možnost zadat konkrétní kategorie entit, které chcete použít v odpovědi, a odstranit PII entity. Entity PII budou ve vlastnosti odpovědi nahrazeny hvězdičkami redactedText
.
Přečtěte si příklad požadavku NER a ukázkové odpovědi , abyste zjistili, jak odeslat text do služby a co očekávat zpět.
Příklady případů použití
Zákazníci můžou chtít rozpoznat různé kategorie pojmenovaných entit dvěma hlavními důvody:
- Vylepšení možností vyhledávání – Zákazníci můžou vytvářet grafy znalostí založené na entitách zjištěných v dokumentech za účelem vylepšení hledání dokumentů.
- Vylepšení nebo automatizace obchodních procesů – například při kontrole pojistných nároků by se mohly zvýraznit rozpoznané entity, jako je název a umístění, aby se kontrola usnadnila. Nebo je možné vygenerovat lístek podpory s názvem zákazníka a společností automaticky z e-mailu.
Zákazníci můžou chtít rozpoznat různé kategorie entit PII, a to zejména z několika důvodů:
- Použijte označení citlivosti – například podle výsledků služby ochrany osobních údajů se může použít veřejný štítek citlivosti na dokumenty, kde nejsou zjištěny žádné entity PII. U dokumentů, kde jsou rozpoznány adresy USA a telefonní čísla, se může použít důvěrný popisek. Pro dokumenty, ve kterých jsou rozpoznána čísla bankovního směrování, může být použito vysoce důvěrné označení.
- Redact some categories of personal information from documents to protect privacy - Například, pokud jsou záznamy o kontaktech zákazníků přístupné pracovníkům první úrovně podpory, společnost může chtít vymazat z historie zákazníka nepotřebné osobní údaje, aby chránila soukromí zákazníka.
- Redakce osobních údajů, aby se snížily nevědomé předsudky - Například během procesu kontroly životopisů ve firmě mohou chtít zablokovat jméno, adresu a telefonní číslo, aby pomohlo snížit nevědomé genderové nebo jiné předsudky.
- Nahraďte osobní údaje ve zdrojových datech pro strojové učení, abyste snížili nespravedlivost – například pokud chcete odebrat jména, která by mohla odhalit pohlaví při trénování modelu strojového učení, můžete tuto službu použít k jejich identifikaci a nahradit je obecnými zástupnými symboly pro trénování modelu.
Důležité informace o výběru případu použití
Nepoužívat
- Pouze PII – Nepoužívejte automatické scénáře redakce nebo klasifikace informací – Jakýkoli scénář, ve kterém by selhání redakce osobních údajů mohla vystavit osoby riziku krádeže identity a fyzické nebo psychologické škody, by měly zahrnovat pečlivý lidský dohled.
- NER a PII - Nepoužívejte pro scénáře, které používají osobní údaje pro účely, pro který se souhlas nezískaly – například společnost má životopis od předchozích uchazečů o zaměstnání. Žadatelé nepřidali svůj souhlas s kontaktováním propagačních akcí, když odeslali životopisy. V závislosti na tomto scénáři by se služby NER i PII neměly používat k identifikaci kontaktních údajů pro účely pozvání předchozích žadatelů na obchodní show.
- NER a PII - Zákazníci nesmějí používat tuto službu k získávání osobních údajů z veřejně dostupného obsahu bez souhlasu osob, které jsou předmětem osobních údajů.
- NER a PII – Nepoužívejte je ve scénářích, které nahrazují osobní údaje v textu se záměrem klamat lidi.
Právní a regulační aspekty: Organizace musí vyhodnotit potenciální specifické právní a regulační povinnosti při používání jakýchkoli služeb a řešení umělé inteligence, které nemusí být vhodné pro použití v každém odvětví nebo scénáři. Kromě toho nejsou služby nebo řešení umělé inteligence určené a nesmí se používat způsobem zakázaným v příslušných podmínkách služeb a příslušných kodexech chování.
Charakteristiky a omezení
V závislosti na vašem scénáři se vstupními daty a entitami, které chcete extrahovat, můžete zaznamenat různé úrovně výkonu. Následující části jsou navržené tak, aby vám pomohly pochopit klíčové koncepty výkonu, které se týkají používání služeb AZURE AI Language NER a PII.
Porozumění a měření výkonu NER
Vzhledem k tomu, že může dojít k falešně pozitivním i falešně negativním chybám, je důležité pochopit, jak mohou oba typy chyb ovlivnit váš celkový systém. Při rozpoznávání pojmenovaných entit (NER) dojde k falešně pozitivnímu výskytu entity v případě, že entita není v textu, ale systém ji rozpozná a vrátí. Falešně negativní je, když je entita v textu, ale systém ji nerozpozná a nevrátí.
Porozumění výkonu PII
Ve scénářích redakce může například falešně negativní výsledek vést k úniku osobních informací. V případě scénářů redakce zvažte proces kontroly člověka, který bude brát v úvahu tento typ chyby. U scénářů popisků citlivosti můžou falešně pozitivní i falešně negativní výsledky vést k nesprávné klasifikaci dokumentů. Cílová skupina může být zbytečně omezena pro dokumenty označené jako důvěrné, kde došlo k falešným pozitivním výsledkům. Může dojít k úniku PII, pokud nastal falešně negativní výsledek a bylo použito veřejné označení.
Prahovou hodnotu pro skóre spolehlivosti, které váš systém používá k ladění systému, můžete upravit. Pokud je důležitější identifikovat všechny potenciální instance PII, můžete použít nižší prahovou hodnotu. To znamená, že můžete získat více falešně pozitivních výsledků (data, která nejsou PII, jsou rozpoznána jako PII entity), ale méně falešně negativních případů (entity PII nejsou rozpoznány jako PII). Pokud je pro váš systém důležitější rozpoznat pouze pravdivá data PII, můžete použít vyšší prahovou hodnotu. Prahové hodnoty nemusí mít konzistentní chování napříč jednotlivými kategoriemi entit PII. Proto je důležité otestovat systém skutečnými daty, která bude zpracovávat v produkčním prostředí.
Omezení systému a osvědčené postupy pro zvýšení výkonu
Ujistěte se, že rozumíte všem kategoriím entit pro NER a PII , které systém rozpozná. V závislosti na vašem scénáři můžou vaše data obsahovat další informace, které by mohly být považovány za osobní, ale nejsou pokryty kategoriemi, které služba aktuálně podporuje.
Kontext je důležitý, aby systém správně rozpoznal všechny kategorie entit, protože lidé často rozpoznávají entitu. Například bez kontextu deseticiferné číslo je pouze číslo. Vzhledem k kontextu, jako je třeba "Můžete se spojit se mnou na telefonní číslo v kanceláři 2345678901", systém i člověk dokáže rozpoznat desetimístné číslo jako telefonní číslo. Při odesílání textu do systému vždy zahrňte kontext, abyste získali nejlepší možný výkon.
Jména osob vyžadují zejména lingvistický kontext. Odešlete co nejvíce kontextu pro lepší detekci jmen osob.
U konverzačních dat zvažte odeslání více než jedné repliky v konverzaci, abyste zajistili vyšší pravděpodobnost, že požadovaný kontext bude zahrnut spolu se skutečnými entitami.
Pokud v následující konverzaci odešlete vždy jeden řádek, číslo pasu nebude mít k němu přidružený žádný kontext a kategorie ČÍSLO PII pasu EU se nerozpozná.Ahoj, jak vám mohu dnes pomoct?
Chci obnovit svůj pas
Jistě, jaké je vaše aktuální číslo pasu?
Je to 123456789, díky.Pokud ale odešlete celou konverzaci, rozpozná se, protože je zahrnut kontext.
Někdy může být pro stejnou entitu rozpoznáno více kategorií entit. Pokud vezmeme předchozí příklad:
Ahoj, jak vám mohu dnes pomoct?
Chci obnovit svůj pas
Jistě, jaké je vaše aktuální číslo pasu?
Je to 123456789, díky.Několik různých zemí má stejný formát pro čísla pasů, takže je možné rozpoznat několik různých kategorií entit. V některých případech nemusí být použití nejvyššího skóre spolehlivosti dostatečné k výběru správné třídy entity. Pokud váš scénář závisí na rozpoznání konkrétní kategorie entity, možná budete muset výsledek na jiném místě v systému rozlišit buď pomocí lidského přezkumu, nebo dalšího ověřovacího kódu. Důkladné testování dat v reálném životě vám může pomoct zjistit, jestli pro váš scénář pravděpodobně uvidíte více kategorií entit.
Ne všechny kategorie entit jsou podporovány ve všech jazycích pro NER i PII. Nezapomeňte zkontrolovat článek o typu entity pro entity v jazyce, který chcete zjistit.
Podporuje se mnoho mezinárodních entit PII (osobní identifikační údaje). Ve výchozím nastavení jsou vrácené kategorie entit ty, které odpovídají kódu jazyka odeslanému voláním rozhraní API. Pokud očekáváte entity z jiných národních prostředí, než které jsou zadané, budete je muset zadat pomocí parametru
piiCategories
. Zjistěte více o tom, jak určit, co bude vaše odpověď v referenci API obsahovat. Další informace o kategoriích podporovaných pro každou lokalitu najdete v dokumentaci k pojmenovaným typům entit.Pokud ve scénářích redakce PII používáte verzi rozhraní API, která obsahuje volitelný parametr
piiCategories
, je důležité vzít v úvahu všechny kategorie PII, které by mohly být ve vašem textu přítomné. Pokud provádíte redakci pouze konkrétní kategorie entit nebo výchozí kategorie entit pro konkrétní národní prostředí, dojde k úniku dalších kategorií entit PII, které se neočekávaně zobrazují v textu. Pokud například odešlete jazykové prostředí EN-US a neuvedete žádné volitelné kategorie osobních identifikovatelných informací (PII) a v textu se objeví číslo německého řidičského průkazu, dojde k úniku. Chcete-li tomu zabránit, musíte v parametrupiiCategories
zadat kategorii číslo licence německého řidiče. Kromě toho, pokud jste pomocí parametrupiiCategories
pro zadané národní prostředí zadali jednu nebo více kategorií, mějte na paměti, že jde o jediné kategorie, které by byly upraveny. Pokud jste například odeslali locali EN-US a zadali jste číslo sociálního zabezpečení USA (SSN) jako kategorii PII pro redakci, unikly by jakékoli jiné kategorie EN-US, jako je číslo řidičského průkazu USA nebo číslo pasu USA, pokud by se objevily ve vstupním textu.Vzhledem k tomu, že služba PII vrací kategorie PII, které odpovídají kódu jazyka volání, zvažte ověření jazyka, ve kterém je vstupní text, pokud nevíte, jaký jazyk nebo národní prostředí bude. K tomu můžete použít funkci Rozpoznávání jazyka .
Služba PII přijímá jako vstup pouze text. Pokud provádíte redakci informací z dokumentů v jiných formátech, nezapomeňte pečlivě otestovat kód redakce, abyste zajistili, že identifikované entity nebudou omylem unikly.
Viz také
- Poznámka k transparentnosti pro jazyk Azure AI
- Poznámka k transparentnosti pro funkci stavu
- Poznámka transparentnosti pro extrakci klíčových frází
- Poznámka k transparentnosti pro rozpoznávání jazyka
- Poznámka k transparentnosti pro zodpovězení otázek
- Poznámka k transparentnosti pro shrnutí
- Poznámka k transparentnosti pro analýzu mínění
- Ochrana osobních údajů a zabezpečení dat pro jazyk Azure AI
- Pokyny pro integraci a zodpovědné použití s jazykem Azure AI