Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Importante
Las traducciones no en inglés solo se proporcionan para mayor comodidad. Consulte la EN-US versión de este documento para obtener la versión definitiva.
¿Qué es una nota de transparencia?
Los sistemas de inteligencia artificial incluyen no solo la tecnología, sino también las personas que la usarán y las que se verán afectadas por ella, así como los entornos en los que se implementan. La creación de un sistema adecuado a su finalidad requiere comprender cómo funciona la tecnología, sus capacidades y limitaciones, y cómo conseguir el mejor rendimiento. Las notas de transparencia de Microsoft están diseñadas para ayudarle a entender cómo funciona nuestra tecnología de inteligencia artificial, las elecciones que los propietarios del sistema pueden hacer que influyan en el rendimiento y el comportamiento del sistema y la importancia de pensar en todo el sistema, incluida la tecnología, las personas y el entorno. Puede usar notas sobre transparencia al desarrollar o implementar su propio sistema, o compartirlas con las personas que usarán o se verán afectadas por el sistema.
Las notas de transparencia de Microsoft forman parte de un esfuerzo más amplio en Microsoft para poner en práctica nuestros principios de inteligencia artificial. Para obtener más información, consulte Principios de IA de Microsoft.
Conceptos básicos del lenguaje de Azure en Foundry Tools
Introducción
Language es un servicio basado en la nube que proporciona características de procesamiento de lenguaje natural (NLP) para la minería de texto y el análisis de texto, incluidas las siguientes características:
- Reconocimiento de entidades con nombre (NER), Información de identificación personal (PII)
- Text Analytics para salud
- Extracción de frases clave
- Detección de idiomas
- Análisis de sentimiento y minería de opiniones
- Respuesta a preguntas
- Resumen
- Reconocimiento de entidades con nombre personalizado (NER personalizado)
- Clasificación de texto personalizada
- Reconocimiento del lenguaje conversacional
Lea la información general para obtener una introducción a cada característica y revise los casos de uso de ejemplo. Consulte las guías paso a paso y la referencia de API para comprender más detalles sobre lo que hace cada característica y lo que devuelve el sistema.
Este artículo contiene instrucciones básicas sobre cómo usar las características del lenguaje de forma responsable. Lea primero la información general y, a continuación, vaya al artículo específico si usa una de las características siguientes.
- Nota de transparencia para reconocimiento de entidades nombradas
- [Nota de transparencia para información personal identificable](/azure/ai-foundry/responsible-ai/language-service/transparency-note-personally-identifiable-information
- [Nota de transparencia para el análisis de texto para la salud](/azure/ai-foundry/responsible-ai/language-service/transparency-note-health
- Nota de transparencia para la extracción de frases clave
- Nota de transparencia para la detección de idioma
- Nota de transparencia para el análisis de sentimiento
- Nota de transparencia para la respuesta a preguntas
- Nota de transparencia para el resumen
- Nota de transparencia para el reconocimiento de entidades con nombre personalizado (NER personalizado)
- Nota de transparencia para la clasificación de texto personalizada
- Nota de transparencia para la comprensión del lenguaje conversacional
Capacidades
Casos de uso
Los servicios de lenguaje se pueden usar en varios escenarios en una variedad de sectores. Algunos ejemplos enumerados por característica son:
Utilice el reconocimiento de entidades con nombre personalizadas para la minería del conocimiento y mejorar la búsqueda semántica. La búsqueda es fundamental para cualquier aplicación que ofrezca contenido de texto a los usuarios. Entre los escenarios comunes se incluyen la búsqueda de catálogos, documentos y productos minoristas o la minería de conocimiento para la ciencia de datos. Muchas empresas de varios sectores quieren crear una mejor experiencia de búsqueda de contenido privado y heterogéneo que incluya documentos tanto estructurados como no estructurados. Como parte de su canalización, los desarrolladores pueden usar Reconocimiento de entidades con nombre personalizadas para extraer entidades del texto que son relevantes para su sector. Estas entidades se pueden usar para enriquecer la indexación del archivo, con el fin de personalizar más la experiencia de búsqueda.
Use Reconocimiento de entidades con nombre para mejorar o automatizar los procesos empresariales. Por ejemplo, al revisar las reclamaciones de seguros, se podrían resaltar entidades reconocidas como el nombre y la ubicación para facilitar la revisión. O bien, se podría generar una incidencia de soporte técnico con el nombre de un cliente y la empresa de forma automática desde un correo electrónico.
Use información de identificación personal para censurar algunas categorías de información personal de documentos para proteger la privacidad. Por ejemplo, si los registros de contacto del cliente son accesibles para los representantes de soporte técnico de primera línea, es posible que la empresa quiera censurar la información personal del cliente innecesaria del historial de clientes para conservar la privacidad del cliente.
Use detección de idioma para detectar idiomas para el flujo de trabajo empresarial. Por ejemplo, si una empresa recibe correo electrónico en varios idiomas de los clientes, podría usar la detección de idioma para enrutar los correos electrónicos por idioma a hablantes nativos para facilitar la comunicación con esos clientes.
Utilice el Análisis de Sentimientos para supervisar las tendencias de comentarios positivos y negativos en conjunto. Después de la introducción de un nuevo producto, un minorista podría usar el servicio de opinión para supervisar varias redes sociales para mencionar el producto con su opinión. Podrían revisar el sentimiento de tendencia en sus reuniones de productos semanales.
Use Resumen para extraer información clave de artículos de noticias públicas. Para generar información como tendencias y noticias destacadas.
Use extracción de frases clave para ver las tendencias agregadas en los datos de texto. Por ejemplo, se puede generar una nube de palabras con frases clave para ayudar a visualizar conceptos clave en comentarios o comentarios de texto. Por ejemplo, un hotel podría generar una nube de palabras basada en frases clave identificadas en sus comentarios y podría ver que las personas comentan con más frecuencia sobre la ubicación, limpieza y personal útil.
Use Text Analytics for Health para obtener conclusiones y extracción de estadísticas. Identifique entidades médicas como síntomas, medicamentos y diagnósticos en notas clínicas y diversos documentos clínicos. Utilice esta información para generar información y estadísticas sobre las poblaciones de pacientes, buscar documentos clínicos, documentos de investigación y publicaciones.
Use la clasificación de texto personalizada para la evaluación automática de correo electrónico o incidencia. Los centros de soporte técnico de todo tipo reciben un gran volumen de correos electrónicos o vales que contienen texto sin estructurar y de forma libre y datos adjuntos. La revisión, confirmación y enrutamiento oportunos a expertos en la materia dentro de los equipos internos es fundamental. La evaluación de prioridades de correos electrónicos a esta escala requiere revisarlos y trasladar el asunto a los departamentos adecuados, lo que lleva tiempo y recursos. La clasificación de texto personalizado puede servir para analizar el texto entrante y evaluar y clasificar el contenido, de forma que pueda trasladarse automáticamente al departamento correspondiente para seguir adoptando medidas.
Utilice la comprensión del lenguaje conversacional para crear bots de conversación integrales. Use CLU para compilar y entrenar un modelo de reconocimiento del lenguaje natural personalizado basado en un dominio específico y las expresiones esperadas de los usuarios. Intégrelo con cualquier bot de conversación de un extremo a otro para que pueda procesar y analizar el texto entrante en tiempo real para identificar la intención del texto y extraer información importante de este. Haga que el bot realice la acción deseada en función de la intención y la información extraída. Un ejemplo sería un bot de comercio minorista personalizado para compras o pedidos de comida en línea.
Utilice el sistema de preguntas y respuestas para el servicio de atención al cliente. En la mayoría de los escenarios de soporte al cliente, se hacen preguntas frecuentes. La respuesta a preguntas le permite crear instantáneamente un bot de chat a partir del contenido de soporte técnico existente y este bot puede actuar como sistema de primera línea para controlar las consultas de los clientes. Si el bot no puede responder a las preguntas, los componentes adicionales pueden ayudar a identificar y marcar la pregunta para la intervención humana.
Limitaciones
La calidad del texto entrante al sistema afectará a los resultados.
Las características de idioma solo procesan texto. La fidelidad y el formato del texto entrante afectarán al rendimiento del sistema. Asegúrese de tener en cuenta lo siguiente:
La calidad de la transcripción de voz puede afectar a la calidad de los resultados. Si los datos de origen son de voz, asegúrese de usar la combinación de calidad más alta de transcripción automática y humana para garantizar el mejor rendimiento. Considere la posibilidad de usar modelos de voz personalizados para obtener mejores resultados de calidad.
La no utilización de la puntuación o de mayúsculas y minúsculas estándares puede afectar a la calidad de sus resultados. Si usa un sistema de voz, como Azure Speech in Foundry Tools to Text, asegúrese de seleccionar la opción para incluir puntuación.
La calidad del reconocimiento óptico de caracteres (OCR) puede afectar a la calidad del sistema. Si los datos de origen son imágenes y usa la tecnología OCR para generar el texto, el texto generado incorrectamente puede afectar al rendimiento del sistema. Considere la posibilidad de usar modelos de OCR personalizados para ayudar a mejorar la calidad de los resultados.
Si los datos incluyen errores ortográficos frecuentes, considere la posibilidad de usar Bing Spell Check para corregir errores ortográficos.
Es posible que los datos tabulares no se identifiquen correctamente en función de cómo envíe el texto de la tabla al sistema. Evalúe cómo se envía texto desde tablas de documentos de origen al servicio. En el caso de las tablas de documentos, considere la posibilidad de usar Azure Document Intelligence en Foundry Tools o un servicio similar. Esto le permitirá obtener las claves y los valores adecuados para enviar a Language con claves contextuales que estén lo suficientemente cerca de los valores para que el sistema reconozca correctamente las entidades.
Microsoft entrenó sus modelos de características de lenguaje (con la excepción de la detección de idioma) mediante datos de texto de lenguaje natural que constan principalmente de oraciones y párrafos totalmente formados. Por lo tanto, el uso de este servicio para los datos que se parezcan más a este tipo de texto producirá el mejor rendimiento. Se recomienda evitar el uso de este servicio para evaluar frases incompletas siempre que sea posible, ya que se puede reducir el rendimiento.
El servicio solo admite texto de idioma único. Si el texto incluye varios idiomas por ejemplo "el sándwich era bueno", es posible que la salida no sea precisa.
El código de idioma debe coincidir con el idioma de texto de entrada para obtener resultados precisos. Si no está seguro acerca del idioma de entrada, puede usar la característica de detección de idioma.
Prácticas recomendadas para mejorar el rendimiento del sistema
Algunas características del lenguaje devuelven puntuaciones de confianza y se pueden evaluar mediante el enfoque descrito en las secciones siguientes. Otras características que no devuelven una puntuación de confianza (como la extracción y el resumen de palabras clave) deberán evaluarse mediante diferentes métodos.
Entender las puntuaciones de confianza para el análisis de sentimiento, el reconocimiento de entidades con nombre, la detección de idioma y las funciones de salud
El análisis de sentimiento, el reconocimiento de entidades con nombre, la detección de idioma y las funciones de salud devuelven una puntuación de confianza como parte de la respuesta del sistema. Este es un indicador de la confianza del servicio con la respuesta del sistema. Un valor más alto indica que el servicio está más seguro de que el resultado es preciso. Por ejemplo, el sistema reconoce la entidad de la categoría Número de licencia de conducir de EE. UU. en el texto 555 555 555 cuando se da el texto "Mi número de licencia de conducir de NY es 555 555 555" con una puntuación de 0.75 y podría reconocer la entidad de la categoría Número de licencia de conducir de EE. UU. en el texto 555 555 555 con una puntuación de 0.65 cuando se le da el texto "Mi número DL de NY es 555 555 555". Dado el contexto más específico del primer ejemplo, el sistema tiene más confianza en su respuesta. En muchos casos, la respuesta del sistema se puede usar sin examinar la puntuación de confianza. En otros casos, puede optar por usar una respuesta solo si su puntuación de confianza está por encima de un umbral de puntuación de confianza especificado.
Descripción y medición del rendimiento
El rendimiento de las características del lenguaje se mide examinando el nivel de reconocimiento del sistema de los conceptos de NLP admitidos (en un valor de umbral determinado en comparación con un juez humano). En el caso de la extracción de entidades con nombre (NER), por ejemplo, uno podría contar el número verdadero de entidades de números de teléfono en algún texto basado en el criterio humano y, a continuación, comparar con la salida del sistema desde el procesamiento del mismo texto. Comparar el juicio humano con las entidades reconocidas por el sistema le permitiría clasificar los eventos en dos tipos de eventos correctos (o "verdaderos") y dos tipos de eventos incorrectos (o "falsos").
| Resultado | Correcto o incorrecto | Definición | Ejemplo |
|---|---|---|---|
| Verdadero positivo | Correcto | El sistema devuelve el mismo resultado que se esperaría de un juez humano. | El sistema reconoce correctamente la entidad PII de la categoría Número de teléfono en el texto 1-234-567-8910 cuando se le da el texto: "Puede llegarme a mi número de oficina 1-234-567-9810". |
| Verdadero negativo | Correcto | El sistema no devuelve un resultado y esto se alinea con lo que se esperaría del juez humano. | El sistema no reconoce ninguna entidad PII cuando se le indique el texto: "Puede ponerse en contacto conmigo en mi número de oficina". |
| Falso positivo | Incorrecto | El sistema devuelve un resultado en el que un juez humano no lo haría. | El sistema reconoce incorrectamente la entidad PII de categoría número de teléfono para el texto de número de oficina cuando se le proporciona el texto: "Puede contactar conmigo en el número de mi oficina". |
| Falso negativo | Incorrecto | El sistema no devuelve un resultado cuando un juez humano lo haría. | El sistema pierde incorrectamente una entidad de PII de Número de Teléfono en el texto 1-234-567-8910 cuando se le proporciona el texto: "Puede contactar conmigo en el número de mi oficina 1-234-567-9810". |
Las características del lenguaje no siempre serán correctas. Es probable que experimente errores falsos negativos y falsos positivos. Es importante tener en cuenta cómo afectará cada tipo de error al sistema. Piense detenidamente en escenarios en los que los eventos verdaderos no se reconocerán, dónde se reconocerán los eventos incorrectos y cuáles podrían ser los efectos posteriores en la implementación. Asegúrese de crear formas de identificar, notificar y responder a cada tipo de error. Planee revisar periódicamente el rendimiento del sistema implementado para asegurarse de que los errores se controlan correctamente.
Establecimiento de umbrales de puntuación de confianza
Puede elegir tomar decisiones en el sistema en función de la puntuación de confianza que devuelve el sistema. Puede ajustar el umbral de puntuación de confianza que usa el sistema para satisfacer sus necesidades. Si es más importante identificar todas las instancias potenciales de los conceptos de NLP que desee, puede usar un umbral inferior. Esto significa que puede obtener más falsos positivos, pero menos falsos negativos. Si es más importante que el sistema reconozca solo las instancias verdaderas de la característica a la que llama, puede usar un umbral superior. Si usa un umbral superior, puede obtener menos falsos positivos, pero más falsos negativos. Los distintos escenarios llaman a diferentes enfoques. Además, es posible que los valores de umbral no tengan un comportamiento coherente entre las características individuales del lenguaje y las categorías de entidades. Por ejemplo, no haga suposiciones de que el uso de un umbral determinado para el número de teléfono de categoría NER sería suficiente para otra categoría NER, o que un umbral que use en NER funcionaría de forma similar para el análisis de sentimiento. Por lo tanto, es fundamental probar el sistema con los umbrales que considere usar con datos reales para determinar los efectos de varios valores de umbral del sistema en el contexto en el que se usará.
Imparcialidad
En Microsoft, nos esforzamos por capacitar a cada persona del planeta para lograr más. Una parte esencial de este objetivo es trabajar para crear tecnologías y productos justos e inclusivos. La equidad es un tema multidimensional, sociotécnico y afecta a muchos aspectos diferentes de nuestro desarrollo de productos. Aquí puede obtener más información sobre el enfoque de Microsoft para la equidad.
Una dimensión que debemos tener en cuenta es el rendimiento del sistema para diferentes grupos de personas. Esto puede incluir examinar la precisión del modelo, así como medir el rendimiento del sistema completo. La investigación ha demostrado que sin esfuerzo consciente centrado en mejorar el rendimiento de todos los grupos, a menudo es posible que el rendimiento de un sistema de inteligencia artificial varíe entre grupos en función de factores como la raza, la etnicidad, el idioma, el género y la edad.
Cada servicio y característica son diferentes y es posible que nuestras pruebas no coincidan perfectamente con su contexto o cubran todos los escenarios necesarios para su caso de uso. Animamos a los desarrolladores a evaluar exhaustivamente las tasas de error del servicio con datos reales que reflejen su caso de uso, incluidas las pruebas con usuarios de diferentes grupos demográficos.
Para el Idioma, es posible que algunos dialectos y variedades lingüísticas dentro de los idiomas y textos que admitimos, así como los textos de algunos grupos demográficos, aún no tengan suficiente representación en nuestros conjuntos de datos de entrenamiento actuales. Le animamos a revisar nuestras directrices de uso responsable y, si encuentra diferencias de rendimiento, le animamos a que nos haga saber.
El rendimiento varía en función de las características y los lenguajes
Se admiten varios idiomas para cada característica de idioma. Es posible que el rendimiento de una característica determinada no sea coherente con otra característica. Además, puede encontrar que para una característica determinada que el rendimiento no es coherente en varios lenguajes.
Pasos siguientes
Si usa cualquiera de las características siguientes, asegúrese de revisar la información específica de esa característica.
Consulte también
- Nota de transparencia para el reconocimiento de entidades con nombre e información de identificación personal
- Nota de transparencia para el análisis de texto para la salud
- Nota de transparencia para la extracción de frases clave
- Nota de transparencia para la detección de idioma
- Nota de transparencia para la respuesta a preguntas
- Nota de transparencia para el resumen
- Nota de transparencia para el análisis de sentimiento
- Nota de transparencia para el reconocimiento de entidades con nombre (NER) personalizado
- Nota de transparencia para la clasificación de texto personalizada
- Nota de transparencia para la comprensión del lenguaje conversacional
Además, asegúrese de revisar: