Como detectar e redigir PIIs (informações de identificação pessoal) em conversas

Artigo
10/16/2024

O recurso PII conversacional pode avaliar conversas para extrair informações confidenciais (PII) no conteúdo em várias categorias predefinidas e redigi-las. Essa API opera em texto transcrito (referenciado como transcrições) e chats. Para transcrições, a API também permite a redação de segmentos de áudio, que contém as informações de PII fornecendo as informações de tempo de áudio para esses segmentos de áudio.

Determinar como processar os dados (opcional)

Especificar o modelo de detecção de PII

Por padrão, o recurso usará o modelo de IA mais recente disponível na entrada. Você também pode configurar suas solicitações de API para usar uma versão de modelo específica.

Suporte ao idioma

Consulte a página Suporte à Linguagem PII para obter mais detalhes. Atualmente, o modelo GA de PII de conversação dá suporte apenas ao idioma inglês. O modelo de visualização e a API dão suporte aos mesmos idiomas de lista que os outros serviços de idioma.

Suporte a regiões

A API de PII de conversação dá suporte a todas as regiões do Azure compatíveis com o serviço de idioma.

Enviar dados

Observação

Consulte o artigo do Language Studio para obter mais informações sobre a formatação de texto de conversa para enviar usando o Language Studio.

Você pode enviar a entrada para a API como lista de itens de conversa. A análise é executada após o recebimento da solicitação. Como a API é assíncrona, pode haver um atraso entre o envio de uma solicitação de API e o recebimento dos resultados. Para obter informações sobre o tamanho e o número de solicitações que você pode enviar por minuto e segundo, confira o artigo de limites de dados abaixo.

Ao usar esse recurso assíncrono, os resultados da API ficam disponíveis por 24 horas a partir do momento em que a solicitação foi ingerida e é indicada na resposta. Após esse período de tempo, os resultados são limpos e não estão mais disponíveis para recuperação.

Quando você envia dados para o PII de conversa, você pode enviar uma conversa (por chat ou falada) por solicitação.

A API tentará detectar as categorias de entidade listadas para uma determinada entrada de conversa. Se você quer especificar quais entidades serão detectadas e retornadas, use o parâmetro opcional piiCategories com as categorias de entidade apropriadas.

Para transcrições faladas, as entidades detectadas serão retornadas no valor do parâmetro redactionSource fornecido. Atualmente, os valores com suporte para redactionSource sãotext, lexical, itne maskedItn (que mapeia para API REST de Conversão de fala em Texto no formato display\displayText, lexical, itn e maskedItn, respectivamente). Além disso, para a entrada de transcrição falada, essa API também fornecerá informações de tempo de áudio para capacitar a redação de áudio. Para usar o recurso audioRedaction, use o sinalizador opcional includeAudioRedaction com valor true. A redação de áudio é executada com base no formato de entrada lexical.

Observação

A PII de conversa agora dá suporte a 40.000 caracteres como tamanho do documento.

Obtendo resultados de PII

Quando você recebe os resultados da detecção de PII, pode transmiti-los a um aplicativo ou salvar a saída em um arquivo no sistema local. A resposta da API incluirá entidades reconhecidas, além de suas categorias e subcategorias, e pontuações de confiança. A cadeia de texto com as entidades de PII redigidas também será retornada.

No portal do Azure, vá para a página de visão geral do recurso
No menu do lado esquerdo, selecione Chaves e Ponto de Extremidade. Você precisará de uma das chaves e do ponto de extremidade para autenticar as solicitações de API.
Baixe e instale o pacote de biblioteca de clientes para sua linguagem de escolha:

Idioma Versão do pacote

.NET 1.0.0

Python 1.0.0
Confira a documentação de referência a seguir para obter mais informações sobre o cliente e retornar o objeto:
- C#
- Python

Idioma	Versão do pacote
.NET	1.0.0
Python	1.0.0

Enviar transcrições usando conversão de fala em texto

Use o exemplo a seguir se você tiver conversas transcritas usando o recurso de serviço de Fala conversão de fala em texto:

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2024-05-01 \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "transcript",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning.",
                        "lexical": "good morning",
                        "itn": "good morning",
                        "maskedItn": "good morning",
                        "audioTimings": [
                            {
                                "word": "good",
                                "offset": 11700000,
                                "duration": 2100000
                            },
                            {
                                "word": "morning",
                                "offset": 13900000,
                                "duration": 3100000
                            }
                        ]
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?",
                        "lexical": "can i have your name",
                        "itn": "can i have your name",
                        "maskedItn": "can i have your name",
                        "audioTimings": [
                            {
                                "word": "can",
                                "offset": 44200000,
                                "duration": 2200000
                            },
                            {
                                "word": "i",
                                "offset": 46500000,
                                "duration": 800000
                            },
                            {
                                "word": "have",
                                "offset": 47400000,
                                "duration": 1500000
                            },
                            {
                                "word": "your",
                                "offset": 49000000,
                                "duration": 1500000
                            },
                            {
                                "word": "name",
                                "offset": 50600000,
                                "duration": 2100000
                            }
                        ]
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe.",
                        "lexical": "sure that is john doe",
                        "itn": "sure that is john doe",
                        "maskedItn": "sure that is john doe",
                        "audioTimings": [
                            {
                                "word": "sure",
                                "offset": 5400000,
                                "duration": 6300000
                            },
                            {
                                "word": "that",
                                "offset": 13600000,
                                "duration": 2300000
                            },
                            {
                                "word": "is",
                                "offset": 16000000,
                                "duration": 1300000
                            },
                            {
                                "word": "john",
                                "offset": 17400000,
                                "duration": 2500000
                            },
                            {
                                "word": "doe",
                                "offset": 20000000,
                                "duration": 2700000
                            }
                        ]
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2023-04-15-preview",
                "redactionSource": "text",
                "includeAudioRedaction": true,
                "piiCategories": [
                    "all"
                ]
            }
        }
    ]
}
`

Enviar chats de texto

Use o exemplo a seguir se você tiver conversas originadas em texto. Por exemplo, conversas por meio de um cliente de chat baseado em texto.

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2024-05-01 \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "text",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning."
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?"
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe."
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2023-04-15-preview"
            }
        }
    ]
}
`

Obter o resultado

Obtenha operation-location do cabeçalho de resposta. O valor será parecido com a seguinte URL:

https://your-language-endpoint/language/analyze-conversations/jobs/12345678-1234-1234-1234-12345678

Para obter os resultados da solicitação, use o comando cURL a seguir. Substitua my-job-id pelo valor de ID numérica recebido do cabeçalho de resposta operation-location anterior:

curl -X GET    https://your-language-endpoint/language/analyze-conversations/jobs/my-job-id \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here"

Limites de dados e serviços

Para obter informações sobre o tamanho e o número de solicitações que você pode enviar por minuto e segundo, confira o artigo Limites de serviços.

Compartilhar via