Guide pratique pour utiliser la détection de langue

Article
12/19/2023

La fonctionnalité Détection de langue peut évaluer du texte et retourner un identificateur de langue qui indique la langue dans laquelle un document a été écrit.

La détection de la langue est utile pour les magasins de contenu qui collectent du texte arbitraire dont la langue est inconnue. Vous pouvez analyser les résultats de cette analyse pour déterminer la langue utilisée dans le document d’entrée. La réponse retourne également un score compris entre 0 et 1 qui reflète la confiance du modèle.

La fonctionnalité Détection de langue peut détecter une grande variété de langues, de variantes, de dialectes, et certaines langues régionales ou de culture.

Options de développement

Pour utiliser la détection la détection de langage, vous envoyez du texte brut non structuré à des fins d’analyse et gérez la sortie de l’API dans votre application. L’analyse est effectuée telle quelle, sans aucune personnalisation supplémentaire du modèle utilisé sur vos données. Il existe deux façons d’utiliser la détection du langage :

Option de développement	Description
Language studio	Language Studio est une plateforme web qui vous permet d’essayer la liaison d’entités avec des exemples de texte sans compte Azure et vos propres données lorsque vous vous inscrivez. Pour plus d’informations, consultez le site web Language Studio ou le démarrage rapide de Language Studio.
API REST ou bibliothèque de client (SDK Azure)	Intégrez la détection de langage dans vos applications à l’aide de l’API REST ou de la bibliothèque de client disponible dans différents langages. Pour en savoir plus, consultez le guide de démarrage rapide de la détection du langage.
Conteneur Docker	Utilisez le conteneur Docker disponible pour déployer cette fonctionnalité localement. Ces conteneurs Docker vous donnent la possibilité de rapprocher le service plus près de vos données, ce qui peut être souhaitable pour des raisons de conformité, de sécurité ou opérationnelles.

Déterminer le mode de traitement des données (facultatif)

Spécifier le modèle de détection de langue

Par défaut, la détection de langue utilise le dernier modèle d’IA disponible sur votre texte. Vous pouvez également configurer vos demandes d’API pour utiliser une version de modèle spécifique.

Langues d’entrée

Lorsque vous soumettez des documents à évaluer, la détection de langue tente de déterminer si le texte a été écrit dans l’une des langues prises en charge.

Si vous avez du contenu exprimé dans une langue moins fréquemment utilisée, vous pouvez essayer la fonctionnalité Détection de langue pour voir si elle retourne un code. La réponse pour les langues qui ne peuvent pas être détectées est unknown.

Envoi de données

Conseil

Vous pouvez utiliser un conteneur Docker pour la détection de langue, afin de pouvoir utiliser l’API localement.

L’analyse est effectuée à la réception de la demande. L’utilisation de la fonctionnalité de détection de langue de façon synchrone est sans état. Aucune donnée n’est stockée dans votre compte, et les résultats sont retournés immédiatement dans la réponse.

Lors de l’utilisation de cette fonctionnalité de manière asynchrone, les résultats de l’API sont disponibles pendant 24 heures à partir du moment où la requête a été ingérée, et sont indiqués dans la réponse. Après cette période, les résultats sont purgés et ne sont plus disponibles pour récupération.

Obtention des résultats de la détection de langue

Lorsque vous recevez des résultats de la détection de langue, vous pouvez diffuser les résultats dans une application ou enregistrer la sortie dans un fichier sur le système local.

La détection de langue retourne une langue prédominante pour chaque document soumis, ainsi que son nom ISO 639-1, un nom convivial et un score de confiance. Un score positif de 1 indique le niveau de confiance possible le plus haut de l’analyse.

Contenu ambigu

Dans certains cas, il peut être difficile de lever toute ambiguïté sur les langues en fonction de l’entrée. Vous pouvez utiliser le paramètre countryHint pour spécifier un code de pays/région ISO 3166-1 alpha-2. Par défaut, l’API utilise « US » comme indicateur de pays par défaut. Pour supprimer ce comportement, vous pouvez réinitialiser ce paramètre en définissant cette valeur sur une chaîne vide countryHint = "".

Par exemple, « communication » est commun à l’anglais et au français ; si le contexte dans lequel il est utilisé est limité, la réponse sera basée sur l’indicateur de pays/région « US ». Si l’origine du texte est connue et qu’il provient de France, cette information peut être fournie par l’indicateur.

Input

{
    "documents": [
        {
            "id": "1",
            "text": "communication"
        },
        {
            "id": "2",
            "text": "communication",
            "countryHint": "fr"
        }
    ]
}

Le modèle de détection de langue dispose désormais d’un contexte supplémentaire pour améliorer le jugement :

Sortie

{
    "documents":[
        {
            "detectedLanguage":{
                "confidenceScore":0.62,
                "iso6391Name":"en",
                "name":"English"
            },
            "id":"1",
            "warnings":[
                
            ]
        },
        {
            "detectedLanguage":{
                "confidenceScore":1.0,
                "iso6391Name":"fr",
                "name":"French"
            },
            "id":"2",
            "warnings":[
                
            ]
        }
    ],
    "errors":[
        
    ],
    "modelVersion":"2022-10-01"
}

Si l’analyseur ne parvient pas à analyser l’entrée, il retourne (Unknown). Cela se produit par exemple si vous envoyez une chaîne de texte composée uniquement de nombres.

{
    "documents": [
        {
            "id": "1",
            "detectedLanguage": {
                "name": "(Unknown)",
                "iso6391Name": "(Unknown)",
                "confidenceScore": 0.0
            },
            "warnings": []
        }
    ],
    "errors": [],
    "modelVersion": "2021-01-05"
}

Contenu en plusieurs langues

Un contenu en plusieurs langues dans un document retourne la langue la plus représentée dans le contenu, mais avec un score positif inférieur. Le score reflète la puissance marginale de cette évaluation. Dans l’exemple suivant, l’entrée est un mélange d’anglais, d’espagnol et de français. L’analyseur compte les caractères dans chaque segment afin de déterminer la langue prédominante.