Formats de données d’analyse des sentiments personnalisés acceptés

Si vous essayez d’importer vos données dans une analyse des sentiments personnalisée, celles-ci doivent suivre un format spécifique. Si vous n’avez pas de données à importer, vous pouvez créer votre projet, puis utiliser Language Studio pour étiqueter vos documents.

Format de fichier d’étiquettes

Votre fichier Étiquettes doit être au format json ci-dessous pour permettre d’importer vos étiquettes dans un projet.

{
    "projectFileVersion": "2023-04-15-preview",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
        "projectKind": "CustomTextSentiment",
        "storageInputContainerName": "custom-sentiment-2",
        "projectName": "sa-test",
        "multilingual": false,
        "description": "",
        "language": "en-us"
    },
    "assets": {
        "projectKind": "CustomTextSentiment",
        "documents": [
            {
                "location": "document_1.txt",
                "language": "en-us",
                "sentimentSpans": [
                    {
                        "category": "positive",
                        "offset": 0,
                        "length": 60
                    },
                    {
                        "category": "neutral",
                        "offset": 61,
                        "length": 31
                    }
                ],
                "dataset": "Train"
            },
            {
                "location": "document_2.txt",
                "language": "en-us",
                "sentimentSpans": [
                    {
                        "category": "positive",
                        "offset": 0,
                        "length": 50
                    },
                    {
                        "category": "positive",
                        "offset": 51,
                        "length": 49
                    },
                    {
                        "category": "positive",
                        "offset": 101,
                        "length": 26
                    }
                ],
                "dataset": "Train"
            }
        ]
    }
}

Clé Espace réservé Valeur Exemple
multilingual true Valeur booléenne permettant au jeu de données de contenir des documents dans plusieurs langues. Quand votre modèle est déployé, vous pouvez interroger le modèle dans n’importe quelle langue prise en charge (pas nécessairement incluse dans vos documents d’entraînement). Consultez Prise en charge de la langue pour en savoir plus sur la prise en charge multilingue. true
projectName {PROJECT-NAME} Nom du projet myproject
storageInputContainerName {CONTAINER-NAME} Nom du conteneur mycontainer
sentimentSpans Tableau contenant tous les sentiments et leurs emplacements dans le document.
documents Tableau contenant tous les documents de votre projet et la liste des entités étiquetées dans chaque document. []
location {DOCUMENT-NAME} Emplacement des documents dans le conteneur de stockage. Étant donné que tous les documents se trouvent à la racine du conteneur, il doit s’agir du nom du document. doc1.txt
dataset {DATASET} Jeu de tests sur lequel ce fichier sera partagé lors de la division avant la formation. Apprenez-en plus sur le découpage des données ici. Les valeurs possibles pour cette propriété sont Train et Test. Train
offset Position de caractère inclusive du début d’un sentiment dans le texte. 0
length Longueur du rectangle englobant en caractères UTF-16. L’apprentissage prend uniquement en compte les données de cette région. 500
category Le sentiment associé à l’étendue de texte spécifiée. positive
offset Position de début du texte de l’entité. 25
length Longueur de la balise en caractères UTF-16. 20
language {LANGUAGE-CODE} Chaîne spécifiant le code de langue du document utilisé dans votre projet. Si votre projet est un projet multilingue, choisissez le code de langue de la majorité des documents. Consultez Support multilingue pour plus d’informations sur les codes de langue pris en charge. en-us

Étapes suivantes