Co to jest wykrywanie danych osobowych (PII) w języku sztucznej inteligencji platformy Azure?

Artykuł
02/02/2024

Wykrywanie sztucznej inteligencji to jedna z funkcji oferowanych przez język azure AI, kolekcji algorytmów uczenia maszynowego i sztucznej inteligencji w chmurze do tworzenia inteligentnych aplikacji obejmujących język pisany. Funkcja wykrywania danych osobowych może identyfikować , kategoryzować i redagować poufne informacje w tekście bez struktury. Na przykład: numery telefonów, adresy e-mail i formy identyfikacji. Metoda korzystania z danych pii w konwersacjach różni się od innych przypadków użycia, a artykuły dotyczące tego użycia są oddzielne.

Przewodniki Szybki start to instrukcje wprowadzające, które ułatwiają wysyłanie żądań do usługi.
Przewodniki z instrukcjami zawierają instrukcje dotyczące korzystania z usługi w bardziej szczegółowy lub dostosowany sposób.
Artykuły koncepcyjne zawierają szczegółowe wyjaśnienia dotyczące funkcjonalności i funkcji usługi.

Dane osobowe są dostępne w dwóch kształtach:

PiI — działa na tekście bez struktury.
Dane osobowe konwersacji (wersja zapoznawcza) — dostosowany model do pracy nad transkrypcją konwersacji.

Typowy przepływ pracy

Aby użyć tej funkcji, przesyłasz dane do analizy i obsługujesz dane wyjściowe interfejsu API w aplikacji. Analiza jest wykonywana zgodnie z rzeczywistym użyciem, bez dodatkowego dostosowania do modelu używanego na danych.

Utwórz zasób języka sztucznej inteligencji platformy Azure, który zapewnia dostęp do funkcji oferowanych przez język azure AI. Generuje hasło (nazywane kluczem) i adres URL punktu końcowego używany do uwierzytelniania żądań interfejsu API.
Utwórz żądanie przy użyciu interfejsu API REST lub biblioteki klienta dla języków C#, Java, JavaScript i Python. Możesz również wysyłać wywołania asynchroniczne z żądaniem wsadowym, aby połączyć żądania interfejsu API dla wielu funkcji w jedno wywołanie.
Wyślij żądanie zawierające dane tekstowe. Klucz i punkt końcowy są używane do uwierzytelniania.
Prześlij odpowiedź strumieniowo lub przechowaj ją lokalnie.

Obsługa dokumentów natywnych

Dokument natywny odnosi się do formatu pliku używanego do tworzenia oryginalnego dokumentu, takiego jak Microsoft Word (docx) lub przenośny plik dokumentu (pdf). Obsługa dokumentów natywnych eliminuje konieczność wstępnego przetwarzania tekstu przed użyciem funkcji zasobów języka sztucznej inteligencji platformy Azure. Obecnie obsługa dokumentów natywnych jest dostępna dla funkcji PiiEntityRecognition.

Obecnie dane osobowe obsługują następujące formaty dokumentów natywnych:

Typ pliku	Rozszerzenie pliku	opis
Tekst	`.txt`	Niesformatowany dokument tekstowy.
Adobe PDF	`.pdf`	Przenośny plik dokumentu sformatowany.
Microsoft Word	`.docx`	Plik dokumentu programu Microsoft Word.

Aby uzyskać więcej informacji, zobaczUse native documents for language processing (Używanie dokumentów natywnych do przetwarzania języka)

Wprowadzenie do wykrywania danych pii

Aby użyć wykrywania danych pii, należy przesłać tekst do analizy i obsłużyć dane wyjściowe interfejsu API w aplikacji. Analiza jest wykonywana zgodnie z rzeczywistym użyciem, bez dostosowywania modelu używanego na danych. Istnieją dwa sposoby używania wykrywania danych przez użytkownika:

Opcja programowania	opis
Studio językowe	Language Studio to platforma internetowa, która umożliwia wypróbowanie łączenia jednostek z przykładami tekstowymi bez konta platformy Azure i własnych danych podczas tworzenia konta. Aby uzyskać więcej informacji, zobacz witrynę internetową language Studio lub przewodnik Szybki start dla programu Language Studio.
Interfejs API REST lub biblioteka klienta (Zestaw Azure SDK)	Integrowanie wykrywania pii z aplikacjami przy użyciu interfejsu API REST lub biblioteki klienta dostępnej w różnych językach. Aby uzyskać więcej informacji, zobacz przewodnik Szybki start dotyczący wykrywania danych osobowych.

Dokumentacja referencyjna i przykłady kodu

Jeśli używasz tej funkcji w aplikacjach, zapoznaj się z następującą dokumentacją referencyjną i przykładami dotyczącymi języka AI platformy Azure:

Opcja/język programowania	Dokumentacja referencyjna	Przykłady
Interfejs API REST	Dokumentacja interfejsu API REST
C#	Dokumentacja języka C#	Przykłady języka C#
Java	Dokumentacja języka Java	Przykłady języka Java
JavaScript	Dokumentacja języka JavaScript	Przykłady języka JavaScript
Python	Dokumentacja języka Python	Przykłady w języku Python

Odpowiedzialne AI

System sztucznej inteligencji obejmuje nie tylko technologię, ale także osoby, które go używają, osoby, których to dotyczy, oraz środowisko wdrażania. Przeczytaj notatkę dotyczącą przejrzystości dla danych pii , aby dowiedzieć się więcej na temat odpowiedzialnego używania i wdrażania sztucznej inteligencji w systemach. Aby uzyskać więcej informacji, zobacz następujące artykuły:

Przykładowe scenariusze

Stosowanie etykiet poufności — na przykład na podstawie wyników usługi PII można zastosować etykietę poufności publicznej do dokumentów, w których nie wykryto żadnych jednostek PII. W przypadku dokumentów, w których są rozpoznawane adresy USA i numery telefonów, można zastosować etykietę poufne. Etykieta o wysokim stopniu poufności może być używana w przypadku dokumentów, w których są rozpoznawane numery routingu bankowego.
Zredaguj niektóre kategorie danych osobowych z dokumentów, które stają się szersze — na przykład jeśli rekordy kontaktów klientów są dostępne dla przedstawicieli pomocy technicznej pierwszej linii, firma może redagować dane osobowe klienta oprócz ich nazwy z historii klienta, aby zachować prywatność klienta.
Redact dane osobowe w celu zmniejszenia nieświadomych stronniczości - na przykład podczas procesu przeglądu życiorysu firmy mogą blokować nazwy, adres i numer telefonu, aby pomóc zmniejszyć nieświadomą płeć lub inne uprzedzenia.
Zastąp dane osobowe w danych źródłowych uczenia maszynowego, aby zmniejszyć niesprawiedliwość — na przykład jeśli chcesz usunąć nazwy, które mogą ujawnić płeć podczas trenowania modelu uczenia maszynowego, możesz użyć usługi do zidentyfikowania ich i zastąpić je ogólnymi symbolami zastępczymi na potrzeby trenowania modelu.
Usuń dane osobowe z transkrypcji centrum telefonicznego — na przykład jeśli chcesz usunąć nazwy lub inne dane osobowe, które występują między agentem a klientem w scenariuszu centrum obsługi telefonicznej. Możesz użyć usługi, aby je zidentyfikować i usunąć.
Czyszczenie danych do nauki o danych — dane osobowe mogą służyć do przygotowania danych dla analityków danych i inżynierów, aby móc używać tych danych do trenowania modeli uczenia maszynowego. Zredagowanie danych w celu upewnienia się, że dane klientów nie są uwidocznione.

Następne kroki

Istnieją dwa sposoby rozpoczynania pracy z funkcją łączenia jednostek:

Language Studio, która jest platformą internetową, która umożliwia wypróbowanie kilku funkcji usługi językowej bez konieczności pisania kodu.
Artykuł Szybki start zawierający instrukcje dotyczące podejmowania żądań do usługi przy użyciu interfejsu API REST i zestawu SDK biblioteki klienta.