Jak wykrywać i redagować dane osobowe w konwersacjach

Artykuł
12/19/2023

Funkcja konwersacyjnych danych osobowych może oceniać konwersacje w celu wyodrębniania poufnych informacji (PII) w zawartości w kilku wstępnie zdefiniowanych kategorii i redagowania ich. Ten interfejs API działa zarówno na transkrypcji tekstu (przywoływał się jako transkrypcje) i czatach. W przypadku transkrypcji interfejs API umożliwia również redaction segmentów audio, które zawierają informacje o piI, udostępniając informacje o chronometrażu dźwięku dla tych segmentów audio.

Określanie sposobu przetwarzania danych (opcjonalnie)

Określanie modelu wykrywania piI

Domyślnie ta funkcja będzie używać najnowszego dostępnego modelu sztucznej inteligencji w danych wejściowych. Możesz również skonfigurować żądania interfejsu API do korzystania z określonej wersji modelu.

Obsługa języków

Obecnie interfejs API konwersacyjnej analizy danych w wersji zapoznawczej obsługuje tylko język angielski.

Obsługa regionów

Obecnie interfejs API konwersacyjnej analizy danych w wersji zapoznawczej obsługuje wszystkie regiony platformy Azure obsługiwane przez usługę językową.

Przesyłanie danych

Uwaga

Zobacz artykuł Language Studio , aby uzyskać informacje na temat formatowania tekstu konwersacyjnego do przesłania przy użyciu programu Language Studio.

Dane wejściowe można przesłać do interfejsu API jako listę elementów konwersacji. Analiza jest wykonywana po odebraniu żądania. Ponieważ interfejs API jest asynchroniczny, może wystąpić opóźnienie między wysłaniem żądania interfejsu API i odebraniem wyników. Aby uzyskać informacje o rozmiarze i liczbie żądań, które można wysłać na minutę i sekundę, zobacz poniższe limity danych.

W przypadku korzystania z funkcji asynchronicznych wyniki interfejsu API są dostępne przez 24 godziny od momentu pozyskiwania żądania i są wskazywane w odpowiedzi. Po upływie tego okresu wyniki są przeczyszczane i nie są już dostępne do pobierania.

Podczas przesyłania danych do konwersacyjnych danych osobowych możesz wysłać jedną konwersację (czat lub rozmowę) na żądanie.

Interfejs API podejmie próbę wykrycia wszystkich zdefiniowanych kategorii jednostek dla danego danych wejściowych konwersacji. Jeśli chcesz określić, które jednostki zostaną wykryte i zwrócone, użyj opcjonalnego piiCategories parametru z odpowiednimi kategoriami jednostek.

W przypadku transkrypcji mówionych wykryte jednostki zostaną zwrócone na podanej wartości parametru redactionSource . Obecnie obsługiwane wartości redactionSource to , , lexicalitni maskedItn (które są mapowane odpowiednio na mowę na tekst interfejsu API display\displayTextREST , itnlexicali maskedItntextformat). Ponadto w przypadku danych wejściowych transkrypcji mówionej ten interfejs API udostępnia również informacje o chronometrażu dźwięku, aby umożliwić redaction audio. W przypadku korzystania z funkcji audioRedaction użyj opcjonalnej includeAudioRedaction flagi z wartością true . Redakcja dźwięku jest wykonywana na podstawie formatu danych wejściowych leksykalnych.

Uwaga

Dane osobowe konwersacji obsługują teraz 40 000 znaków jako rozmiar dokumentu.

Uzyskiwanie wyników pii

Po pobraniu wyników z wykrywania danych przez dane osobowe możesz przesyłać strumieniowo wyniki do aplikacji lub zapisywać dane wyjściowe w pliku w systemie lokalnym. Odpowiedź interfejsu API będzie zawierać rozpoznane jednostki, w tym ich kategorie i podkategorie oraz wyniki ufności. Zostanie również zwrócony ciąg tekstowy z jednostkami piI, które zostały zredagowane.

Przejdź do strony przeglądu zasobu w Azure Portal
Z menu po lewej stronie wybierz pozycję Klucze i punkt końcowy. Do uwierzytelnienia żądań interfejsu API potrzebny będzie jeden z kluczy i punkt końcowy.
Pobierz i zainstaluj pakiet biblioteki klienta dla wybranego języka:

Język Wersja pakietu

.NET 1.0.0

Python 1.0.0
Aby uzyskać więcej informacji na temat klienta i zwracać obiekt, zobacz następującą dokumentację referencyjną:
- C#
- Python

Język	Wersja pakietu
.NET	1.0.0
Python	1.0.0

Przesyłanie transkrypcji przy użyciu mowy do tekstu

Skorzystaj z następującego przykładu, jeśli konwersacje zostały transkrybowane przy użyciu funkcji zamiany mowy usługi Mowa na tekst :

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2022-05-15-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "transcript",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning.",
                        "lexical": "good morning",
                        "itn": "good morning",
                        "maskedItn": "good morning",
                        "audioTimings": [
                            {
                                "word": "good",
                                "offset": 11700000,
                                "duration": 2100000
                            },
                            {
                                "word": "morning",
                                "offset": 13900000,
                                "duration": 3100000
                            }
                        ]
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?",
                        "lexical": "can i have your name",
                        "itn": "can i have your name",
                        "maskedItn": "can i have your name",
                        "audioTimings": [
                            {
                                "word": "can",
                                "offset": 44200000,
                                "duration": 2200000
                            },
                            {
                                "word": "i",
                                "offset": 46500000,
                                "duration": 800000
                            },
                            {
                                "word": "have",
                                "offset": 47400000,
                                "duration": 1500000
                            },
                            {
                                "word": "your",
                                "offset": 49000000,
                                "duration": 1500000
                            },
                            {
                                "word": "name",
                                "offset": 50600000,
                                "duration": 2100000
                            }
                        ]
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe.",
                        "lexical": "sure that is john doe",
                        "itn": "sure that is john doe",
                        "maskedItn": "sure that is john doe",
                        "audioTimings": [
                            {
                                "word": "sure",
                                "offset": 5400000,
                                "duration": 6300000
                            },
                            {
                                "word": "that",
                                "offset": 13600000,
                                "duration": 2300000
                            },
                            {
                                "word": "is",
                                "offset": 16000000,
                                "duration": 1300000
                            },
                            {
                                "word": "john",
                                "offset": 17400000,
                                "duration": 2500000
                            },
                            {
                                "word": "doe",
                                "offset": 20000000,
                                "duration": 2700000
                            }
                        ]
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2022-05-15-preview",
                "redactionSource": "text",
                "includeAudioRedaction": true,
                "piiCategories": [
                    "all"
                ]
            }
        }
    ]
}
`

Przesyłanie czatów tekstowych

Użyj poniższego przykładu, jeśli masz konwersacje pochodzące z tekstu. Na przykład konwersacje za pośrednictwem klienta czatu opartego na tekście.

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2022-05-15-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "text",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning."
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?"
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe."
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2022-05-15-preview"
            }
        }
    ]
}
`

Uzyskiwanie wyniku

Pobierz element operation-location z nagłówka odpowiedzi. Wartość będzie wyglądać podobnie do następującego adresu URL:

https://your-language-endpoint/language/analyze-conversations/jobs/12345678-1234-1234-1234-12345678

Aby uzyskać wyniki żądania, użyj następującego polecenia cURL. Pamiętaj, aby zastąpić my-job-id wartością liczbową identyfikatora otrzymaną z poprzedniego operation-location nagłówka odpowiedzi:

curl -X GET    https://your-language-endpoint/language/analyze-conversations/jobs/my-job-id \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here"

Limity usług i danych

Aby uzyskać informacje o rozmiarze i liczbie żądań, które można wysłać na minutę i sekundę, zobacz artykuł Limity usług .