Обнаружение и редактирование личных сведений в беседах

Статья
12/19/2023

Признак личных сведений в беседах может оценивать беседы для извлечения конфиденциальной информации (личных сведений) в содержимом по нескольким предварительно определенным категориям и редактировать их. Этот API работает с транскрибированным текстом (на который ссылается расшифровка) и чатами. Для расшифровок API также обеспечивает повторение аудиосегментов, содержащих личные сведения, предоставляя данные о времени произнесения этих аудиосегментов.

Определение способа обработки данных (необязательно)

Указание модели обнаружения персональных данных

По умолчанию эта функция использует последнюю доступную модель ИИ при работе с входными данными. Вы также можете настроить запросы API для использования определенной версии модели.

Поддержка языков

В настоящее время предварительная версия API личных сведений в беседах поддерживает только английский язык.

Поддержка регионов

В настоящее время предварительная версия API личных сведений в беседах доступна для всех регионов Azure, поддерживаемых языковой службой.

Отправка данных

Примечание

Сведения о форматировании текста беседы для отправки с помощью Language Studio см. в статье Language Studio.

Входные данные можно отправить в API в виде списка элементов беседы. Анализ выполняется при получении запроса. Так как этот API является асинхронным, может возникать задержка между отправкой запросов к API и получением результатов. Сведения о размере и числе запросов, которые можно отправлять в минуту и секунду, см. в разделе об ограничениях данных ниже.

При использовании асинхронного признака результаты API доступны в течение 24 часов с момента приема запроса и указываются в ответе. По истечении этого периода результаты очищаются и больше не будут доступны для извлечения.

При отправке данных в личные сведения беседы можно отправлять по одной беседе (в форме чате или в устной форме) в каждом запросе.

API будет пытаться обнаружить указанные категории сущностей для соответствующих входных данных беседы. Если необходимо указать, какие сущности будут обнаружены и возвращены, используйте необязательный параметр piiCategories с соответствующими категориями сущностей.

Для речевых расшифровок обнаруженные сущности будут возвращены по указанному значению параметра redactionSource. В настоящее время поддерживаются textзначения redactionSource , lexical, itnи maskedItn (которые сопоставляются с текстом в формате , itnlexicalи maskedItn REST API display\displayTextтекста соответственно). Кроме того, для голосовых входных данных расшифровки этот API также предоставит информацию о тайминге аудиозаписи, чтобы расширить возможности редактирования аудиозаписи. Для использования функции audioRedaction используйте необязательный includeAudioRedaction флаг со значением true. Изменение звука выполняется на основе лексического формата ввода.

Примечание

Личные сведения беседы теперь поддерживают 40 000 символов в качестве размера документа.

Получение обнаруженных персональных данных

При получении результатов от функции распознавания персональных данных можно передать результаты в приложение в потоке или сохранить выходные данные в файл в локальной системе. В ответе API будут указаны распознанные сущности, а также их категории, подкатегории и оценки достоверности. Будет также возвращена текстовая строка с отредактированными сущностями персональных данных.

Перейдите на страницу обзора ресурса на портале Azure.
В меню слева выберите Ключи и конечная точка. Вам потребуется один из ключей и конечная точка для проверки подлинности запросов API.
Скачайте и установите пакет клиентской библиотеки для выбранного языка:

Язык Версия пакета

.NET 1.0.0

Python 1.0.0
Дополнительные сведения о клиенте и возвращаемом объекте см. в следующей справочной документации:
- C#
- Python

Язык	Версия пакета
.NET	1.0.0
Python	1.0.0

Отправка расшифровок с помощью речи в текст

Используйте следующий пример, если беседы транскрибированы с помощью функции преобразования речи в текст службы "Речь":

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2022-05-15-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "transcript",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning.",
                        "lexical": "good morning",
                        "itn": "good morning",
                        "maskedItn": "good morning",
                        "audioTimings": [
                            {
                                "word": "good",
                                "offset": 11700000,
                                "duration": 2100000
                            },
                            {
                                "word": "morning",
                                "offset": 13900000,
                                "duration": 3100000
                            }
                        ]
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?",
                        "lexical": "can i have your name",
                        "itn": "can i have your name",
                        "maskedItn": "can i have your name",
                        "audioTimings": [
                            {
                                "word": "can",
                                "offset": 44200000,
                                "duration": 2200000
                            },
                            {
                                "word": "i",
                                "offset": 46500000,
                                "duration": 800000
                            },
                            {
                                "word": "have",
                                "offset": 47400000,
                                "duration": 1500000
                            },
                            {
                                "word": "your",
                                "offset": 49000000,
                                "duration": 1500000
                            },
                            {
                                "word": "name",
                                "offset": 50600000,
                                "duration": 2100000
                            }
                        ]
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe.",
                        "lexical": "sure that is john doe",
                        "itn": "sure that is john doe",
                        "maskedItn": "sure that is john doe",
                        "audioTimings": [
                            {
                                "word": "sure",
                                "offset": 5400000,
                                "duration": 6300000
                            },
                            {
                                "word": "that",
                                "offset": 13600000,
                                "duration": 2300000
                            },
                            {
                                "word": "is",
                                "offset": 16000000,
                                "duration": 1300000
                            },
                            {
                                "word": "john",
                                "offset": 17400000,
                                "duration": 2500000
                            },
                            {
                                "word": "doe",
                                "offset": 20000000,
                                "duration": 2700000
                            }
                        ]
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2022-05-15-preview",
                "redactionSource": "text",
                "includeAudioRedaction": true,
                "piiCategories": [
                    "all"
                ]
            }
        }
    ]
}
`

Отправка текстовых чатов

Используйте следующий пример, если у вас есть беседы, изначально возникшие в виде текста. Например, беседы через текстовый клиент чата.

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2022-05-15-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "text",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning."
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?"
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe."
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2022-05-15-preview"
            }
        }
    ]
}
`

Получение результата

Получите operation-location из заголовка ответа. Значение будет выглядеть аналогично следующему URL-адресу:

https://your-language-endpoint/language/analyze-conversations/jobs/12345678-1234-1234-1234-12345678

Чтобы получить результаты запроса, используйте следующую команду cURL. Обязательно замените my-job-id числовым значением идентификатора, полученным из предыдущего заголовка ответа operation-location:

curl -X GET    https://your-language-endpoint/language/analyze-conversations/jobs/my-job-id \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here"

Ограничения службы и данных

Сведения о размере и числе запросов, которые можно отправлять в минуту и секунду, см. в статье об ограничениях службы.