Como detetar e redigir Informações de Identificação Pessoal (PII) em conversações

Artigo
12/19/2023

A funcionalidade PII de Conversação pode avaliar conversações para extrair informações confidenciais (PII) nos conteúdos em várias categorias predefinidas e redigi-las. Esta API funciona tanto em texto transcrito (referenciado como transcrições) como em conversas. Para transcrições, a API também permite a redação de segmentos de áudio, que contém as informações PII ao fornecer as informações de temporização de áudio para esses segmentos de áudio.

Determinar como processar os dados (opcional)

Especificar o modelo de deteção PII

Por predefinição, esta funcionalidade utilizará o modelo de IA mais recente disponível na sua entrada. Também pode configurar os seus pedidos de API para utilizar uma versão de modelo específica.

Suporte de idiomas

Atualmente, a API de pré-visualização do PII de conversação só suporta o idioma inglês.

Suporte de região

Atualmente, a API de pré-visualização do PII de conversação suporta todas as regiões do Azure suportadas pelo serviço Idioma.

Submeter dados

Nota

Consulte o artigo do Language Studio para obter informações sobre a formatação do texto de conversação a submeter com o Language Studio.

Pode submeter a entrada para a API como lista de itens de conversação. A análise é realizada aquando da receção do pedido. Uma vez que a API é assíncrona, pode haver um atraso entre o envio de um pedido de API e a receção dos resultados. Para obter informações sobre o tamanho e o número de pedidos que pode enviar por minuto e segundo, veja os limites de dados abaixo.

Ao utilizar a funcionalidade assíncrona, os resultados da API estão disponíveis durante 24 horas a partir do momento em que o pedido foi ingerido e é indicado na resposta. Após este período de tempo, os resultados são removidos e já não estão disponíveis para obtenção.

Quando submete dados ao PII de conversação, pode enviar uma conversa (conversa ou conversa) por pedido.

A API tentará detetar todas as categorias de entidade definidas para uma determinada entrada de conversação. Se quiser especificar que entidades serão detetadas e devolvidas, utilize o parâmetro opcional piiCategories com as categorias de entidade adequadas.

Para transcrições faladas, as entidades detetadas serão devolvidas no valor do redactionSource parâmetro fornecido. Atualmente, os valores suportados para redactionSource são text, lexical, itne maskedItn (que mapeia para Voz para texto da API display\displayTextREST , itnlexicale maskedItn formatar respetivamente). Além disso, para a entrada de transcrição falada, esta API também fornecerá informações de temporização de áudio para capacitar a redação de áudio. Para utilizar a funcionalidade audioRedaction, utilize o sinalizador opcional includeAudioRedaction com true valor. A redação de áudio é executada com base no formato de entrada lexical.

Nota

O PII de Conversação suporta agora 40 000 carateres como tamanho do documento.

Obter resultados do PII

Quando obtém resultados da deteção de PII, pode transmitir os resultados em fluxo para uma aplicação ou guardar a saída num ficheiro no sistema local. A resposta da API incluirá entidades reconhecidas, incluindo as respetivas categorias e subcategorias, e classificações de confiança. A cadeia de texto com as entidades PII redigidas também será devolvida.

Aceda à página de descrição geral do recurso na portal do Azure
No menu do lado esquerdo, selecione Chaves e Ponto Final. Precisará de uma das chaves e do ponto final para autenticar os seus pedidos de API.
Transfira e instale o pacote de biblioteca de cliente para o seu idioma de eleição:

Linguagem Versão de pacote

.NET 1.0.0

Python 1.0.0
Veja a seguinte documentação de referência para obter mais informações sobre o cliente e devolver o objeto:
- C#
- Python

Linguagem	Versão de pacote
.NET	1.0.0
Python	1.0.0

Submeter transcrições através de voz em texto

Utilize o exemplo seguinte se tiver conversações transcritas através da funcionalidade de conversão de voz em texto do serviço de Voz:

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2022-05-15-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "transcript",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning.",
                        "lexical": "good morning",
                        "itn": "good morning",
                        "maskedItn": "good morning",
                        "audioTimings": [
                            {
                                "word": "good",
                                "offset": 11700000,
                                "duration": 2100000
                            },
                            {
                                "word": "morning",
                                "offset": 13900000,
                                "duration": 3100000
                            }
                        ]
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?",
                        "lexical": "can i have your name",
                        "itn": "can i have your name",
                        "maskedItn": "can i have your name",
                        "audioTimings": [
                            {
                                "word": "can",
                                "offset": 44200000,
                                "duration": 2200000
                            },
                            {
                                "word": "i",
                                "offset": 46500000,
                                "duration": 800000
                            },
                            {
                                "word": "have",
                                "offset": 47400000,
                                "duration": 1500000
                            },
                            {
                                "word": "your",
                                "offset": 49000000,
                                "duration": 1500000
                            },
                            {
                                "word": "name",
                                "offset": 50600000,
                                "duration": 2100000
                            }
                        ]
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe.",
                        "lexical": "sure that is john doe",
                        "itn": "sure that is john doe",
                        "maskedItn": "sure that is john doe",
                        "audioTimings": [
                            {
                                "word": "sure",
                                "offset": 5400000,
                                "duration": 6300000
                            },
                            {
                                "word": "that",
                                "offset": 13600000,
                                "duration": 2300000
                            },
                            {
                                "word": "is",
                                "offset": 16000000,
                                "duration": 1300000
                            },
                            {
                                "word": "john",
                                "offset": 17400000,
                                "duration": 2500000
                            },
                            {
                                "word": "doe",
                                "offset": 20000000,
                                "duration": 2700000
                            }
                        ]
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2022-05-15-preview",
                "redactionSource": "text",
                "includeAudioRedaction": true,
                "piiCategories": [
                    "all"
                ]
            }
        }
    ]
}
`

Submeter conversas de texto

Utilize o exemplo seguinte se tiver conversações originadas em texto. Por exemplo, conversações através de um cliente de chat baseado em texto.

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2022-05-15-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "text",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning."
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?"
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe."
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2022-05-15-preview"
            }
        }
    ]
}
`

Obter o resultado

Obtenha o operation-location do cabeçalho de resposta. O valor terá um aspeto semelhante ao seguinte URL:

https://your-language-endpoint/language/analyze-conversations/jobs/12345678-1234-1234-1234-12345678

Para obter os resultados do pedido, utilize o seguinte comando cURL. Certifique-se de que substitui my-job-id pelo valor de ID numérico que recebeu do cabeçalho de resposta anterior operation-location :

curl -X GET    https://your-language-endpoint/language/analyze-conversations/jobs/my-job-id \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here"

Limites de serviços e dados

Para obter informações sobre o tamanho e o número de pedidos que pode enviar por minuto e segundo, consulte o artigo Limites de serviço .