Aptitud cognitiva para la detección de idiomas

Artículo
09/01/2024

La aptitud Detección de idioma detecta el idioma del texto de entrada e informa de un único código de idioma para cada documento enviado en la solicitud. El código de idioma se empareja con una puntuación que indica la intensidad del análisis. Esta aptitud utiliza los modelos de aprendizaje que se proporcionan en Azure AI Language.

Esta funcionalidad es especialmente útil cuando necesita proporcionar el idioma del texto como entrada para otras aptitudes (por ejemplo, la aptitud de análisis de opiniones o la aptitud de división de texto).

Vea compatibilidad de idiomas con la detección de idioma. Si tiene contenido expresado en un idioma no admitido, la respuesta es (Unknown).

Nota:

Esta aptitud está enlazada a los servicios de Azure AI y necesita un recurso facturable para las transacciones que superan los 20 documentos por indexador al día. La ejecución de aptitudes integradas se carga al actual precio de pago por uso de los servicios de Azure AI.

@odata.type

Microsoft.Skills.Text.LanguageDetectionSkill

Límites de datos

El tamaño máximo de un registro debe tener menos de 50 000 caracteres según la medición de String.Length. Si tiene que dividir los datos antes de enviarlos a la aptitud de detección de idioma, puede usar la aptitud División de texto.

Parámetros de la aptitud

Los parámetros distinguen mayúsculas de minúsculas.

Entradas	Descripción
`defaultCountryHint`	(Opcional) Si no se puede eliminar la ambigüedad del idioma, se puede proporcionar un código de país de dos letras ISO 3166-1 alpha-2 para usarlo como sugerencia para el modelo de detección de idioma. En concreto, el parámetro `defaultCountryHint` se utiliza con documentos que no especifican la entrada `countryHint` explícitamente.
`modelVersion`	(Opcional) Especifica la versión del modelo que se va a usar al llamar a la detección de idioma. Si no se especifica, el valor predeterminado es el más reciente disponible. Se recomienda no especificar este valor, salvo que sea estrictamente necesario.

Entradas de la aptitud

Los parámetros distinguen mayúsculas de minúsculas.

Entradas	Descripción
`text`	Texto que se va a analizar.
`countryHint`	Un código de país de dos letras ISO 3166-1 alpha-2 para usarlo como sugerencia para el modelo de detección de idioma si no puede eliminar la ambigüedad del idioma.

Salidas de la aptitud

Nombre de salida	Descripción
`languageCode`	El código de idioma ISO 6391 para el idioma identificado. Por ejemplo, "en".
`languageName`	El nombre del idioma. Por ejemplo, "English".
`score`	Un valor entre 0 y 1. La probabilidad de que el lenguaje esté correctamente identificado. La puntuación puede ser inferior a 1 si la oración tiene distintos idiomas.

Definición de ejemplo

 {
    "@odata.type": "#Microsoft.Skills.Text.LanguageDetectionSkill",
    "inputs": [
      {
        "name": "text",
        "source": "/document/text"
      },
      {
        "name": "countryHint",
        "source": "/document/countryHint"
      }
    ],
    "outputs": [
      {
        "name": "languageCode",
        "targetName": "myLanguageCode"
      },
      {
        "name": "languageName",
        "targetName": "myLanguageName"
      },
      {
        "name": "score",
        "targetName": "myLanguageScore"
      }

    ]
  }

Entrada de ejemplo

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Glaciers are huge rivers of ice that ooze their way over land, powered by gravity and their own sheer weight. "
           }
      },
      {
        "recordId": "2",
        "data":
           {
             "text": "Estamos muy felices de estar con ustedes."
           }
      },
      {
        "recordId": "3",
        "data":
           {
             "text": "impossible",
             "countryHint": "fr"
           }
      }
    ]

Salida de ejemplo

{
    "values": [
      {
        "recordId": "1",
        "data":
            {
              "languageCode": "en",
              "languageName": "English",
              "score": 1,
            }
      },
      {
        "recordId": "2",
        "data":
            {
              "languageCode": "es",
              "languageName": "Spanish",
              "score": 1,
            }
      },
      {
        "recordId": "3",
        "data":
            {
              "languageCode": "fr",
              "languageName": "French",
              "score": 1,
            }
      }
    ]
}

Compartir a través de