Procedimiento para detectar y censurar información de identificación personal (DCP)

La característica DCP puede evaluar texto no estructurado, extraer y censurar información confidencial (PII) e información sanitaria (PHI) en texto en varias categorías predefinidas.

Opciones de desarrollo

Para usar la detección de información de identificación personal (PII), debe enviar texto para su análisis y controlar la salida de la API en la aplicación. El análisis se realiza tal cual, sin personalización adicional al modelo usado en los datos. Hay dos maneras de usar la detección de PII:

Opción de desarrollo Descripción
Language Studio Language Studio es una plataforma basada en la web que le permitirá probar la vinculación de entidades con ejemplos de texto sin tener cuentas de Azure y usando sus propios datos al registrarse. Para obtener más información, consulte el sitio web de Language Studio o la guía de inicio rápido de Language Studio.
API REST o biblioteca cliente (SDK de Azure) Integre la detección de PII en las aplicaciones mediante la API REST o la biblioteca cliente disponible en una variedad de lenguajes. Para más información, consulte el inicio rápido de detección de PII.

Determinación de cómo procesar los datos (opcional)

Especificación del modelo de detección de DCP

De manera predeterminada, esta característica usará el modelo de IA disponible más reciente en el texto. También puede configurar las solicitudes de API para usar una versión del modelo específica.

Idiomas de entrada

Al enviar documentos para su procesamiento, puede especificar en cuál de los idiomas admitidos están escritos. Si no especifica un idioma, la extracción se establece de manera predeterminada en inglés. La API puede devolver desplazamientos en la respuesta para admitir diferentes codificaciones multilingües y emojis.

Envío de datos

El análisis se realiza tras la recepción de la solicitud. El uso de la característica de detección de DCP de forma asincrónica no tiene estado. No se almacenan datos en la cuenta y los resultados se devuelven inmediatamente en la respuesta.

Cuando se usa esta característica de forma asincrónica, los resultados de la API están disponibles durante 24 horas desde el momento en que se ingiere la solicitud y se indica en la respuesta. Después de este período de tiempo, los resultados se purgan y ya no están disponibles para la recuperación.

Selección de las entidades que se van a devolver

La API intentará detectar las categorías de entidad definidas para un idioma de documento determinado. Si desea especificar qué entidades se detectarán y devolverán, use el parámetro opcional piiCategories con las categorías de entidad adecuadas. Este parámetro también puede permitirle detectar entidades que no están habilitadas de forma predeterminada para el lenguaje del documento. En el ejemplo siguiente solo Person se detectaría. Puede especificar uno o varios tipos de entidad que se van a devolver.

Sugerencia

Si no incluye default al especificar las categorías de entidad, la API solo devolverá las categorías de entidad que especifique.

Entrada:

Nota:

En este ejemplo, devolverá solo el tipo de entidad persona:

https://<your-language-resource-endpoint>/language/:analyze-text?api-version=2022-05-01

{
    "kind": "PiiEntityRecognition",
    "parameters": 
    {
        "modelVersion": "latest",
        "piiCategories" :
        [
            "Person"
        ]
    },
    "analysisInput":
    {
        "documents":
        [
            {
                "id":"1",
                "language": "en",
                "text": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is John Doe) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!"
            }
        ]
    }
}

Salida:


{
    "kind": "PiiEntityRecognitionResults",
    "results": {
        "documents": [
            {
                "redactedText": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is ********) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!",
                "id": "1",
                "entities": [
                    {
                        "text": "John Doe",
                        "category": "Person",
                        "offset": 226,
                        "length": 8,
                        "confidenceScore": 0.98
                    }
                ],
                "warnings": []
            }
        ],
        "errors": [],
        "modelVersion": "2021-01-15"
    }
}

Obtención de resultados de DCP

Cuando obtiene los resultados de la detección de DCP, puede transmitirlos a una aplicación, o bien guardar la salida en un archivo en el sistema local. La respuesta de la API contendrá entidades reconocidas, incluidas sus categorías y subcategorías, y las puntuaciones de confianza. También se devolverá la cadena de texto con las entidades de DCP censuradas.

Límites de servicio y datos

Para obtener información sobre el tamaño y el número de solicitudes que puede enviar por minuto y segundo, consulte el artículo sobre límites del servicio.

Pasos siguientes

Introducción al reconocimiento de entidades con nombre