Compétence cognitive Détection de la langue

Article
09/01/2024

La compétence Détection de langue détecte la langue du texte d’entrée et renvoie un code de langue unique pour chaque document soumis dans la requête. Le code de langue est associé à un score indiquant la puissance de l’analyse. Cette compétence utilise les modèles Machine Learning fournis dans Azure AI Search pour la langue.

Cette fonctionnalité est particulièrement utile lorsqu’il est nécessaire d’indiquer la langue du texte en entrée dans d’autres compétences (par exemple, la compétence Analyse des sentiments ou la compétence Fractionnement de texte).

Voir les langues prises en charge par Détection de langue. Si le contenu est exprimé dans une langue non prise en charge, la réponse est (Unknown).

Remarque

Cette compétence est liée aux services Azure AI et nécessite une ressource facturable pour les transactions qui dépassent 20 documents par indexeur et par jour. L'exécution des compétences intégrées est facturée au prix actuel du paiement à l'utilisation des services Azure AI.

@odata.type

Microsoft.Skills.Text.LanguageDetectionSkill

Limites de données

La taille maximale d’un enregistrement doit être de 50 000 caractères telle que mesurée par String.Length. Si vous avez besoin de découper vos données avant de les envoyer à la compétence de détection de langage, vous pouvez utiliser la compétence Fractionnement de texte.

Paramètres de la compétence

Les paramètres respectent la casse.

Entrées	Description
`defaultCountryHint`	(Facultatif) Un code de pays à deux lettres ISO 3166-1 alpha-2 peut être fourni comme indicateur pour le modèle de détection de langue s’il ne peut pas lever l’ambiguïté de la langue. Plus précisément, le paramètre `defaultCountryHint` est utilisé avec les documents qui ne spécifient pas l’entrée `countryHint` explicitement.
`modelVersion`	(Facultatif) Précisez la version du modèle à utiliser pour appeler la détection de langue. Si rien n’est spécifié, c’est la dernière version disponible qui est utilisée par défaut. Nous vous recommandons de ne pas spécifier cette valeur, sauf nécessité.

Entrées de la compétence

Les paramètres respectent la casse.

Entrées	Description
`text`	Texte à analyser.
`countryHint`	Code de pays à deux lettres ISO 3166-1 alpha-2 à utiliser comme indicateur pour le modèle de détection de langue s’il ne peut pas lever l’ambiguïté de la langue.

Sorties de la compétence

Nom de sortie	Description
`languageCode`	Code ISO 6391 de la langue identifiée. Exemple : « en ».
`languageName`	Nom de la langue. Exemple : « anglais ».
`score`	Valeur comprise entre 0 et 1 correspondant à la probabilité que la langue soit correctement identifiée. Le score peut être inférieur à 1 si la phrase comporte plusieurs langues.

Exemple de définition

 {
    "@odata.type": "#Microsoft.Skills.Text.LanguageDetectionSkill",
    "inputs": [
      {
        "name": "text",
        "source": "/document/text"
      },
      {
        "name": "countryHint",
        "source": "/document/countryHint"
      }
    ],
    "outputs": [
      {
        "name": "languageCode",
        "targetName": "myLanguageCode"
      },
      {
        "name": "languageName",
        "targetName": "myLanguageName"
      },
      {
        "name": "score",
        "targetName": "myLanguageScore"
      }

    ]
  }

Exemple d’entrée

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Glaciers are huge rivers of ice that ooze their way over land, powered by gravity and their own sheer weight. "
           }
      },
      {
        "recordId": "2",
        "data":
           {
             "text": "Estamos muy felices de estar con ustedes."
           }
      },
      {
        "recordId": "3",
        "data":
           {
             "text": "impossible",
             "countryHint": "fr"
           }
      }
    ]

Exemple de sortie

{
    "values": [
      {
        "recordId": "1",
        "data":
            {
              "languageCode": "en",
              "languageName": "English",
              "score": 1,
            }
      },
      {
        "recordId": "2",
        "data":
            {
              "languageCode": "es",
              "languageName": "Spanish",
              "score": 1,
            }
      },
      {
        "recordId": "3",
        "data":
            {
              "languageCode": "fr",
              "languageName": "French",
              "score": 1,
            }
      }
    ]
}

Partager via