Partager via


Formats de données acceptés

Si vous essayez d’importer vos données dans la classification de texte personnalisée, il doit suivre un format spécifique. Si vous n’avez pas de données à importer, vous pouvez créer votre projet, puis utiliser Language Studio pour étiqueter vos documents.

Format de fichier d’étiquettes

Votre fichier d’étiquettes doit être au format json ci-dessous. Cela vous permet d’importer vos étiquettes dans un projet.

{
    "projectFileVersion": "2022-05-01",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
        "projectKind": "CustomMultiLabelClassification",
        "storageInputContainerName": "{CONTAINER-NAME}",
        "projectName": "{PROJECT-NAME}",
        "multilingual": false,
        "description": "Project-description",
        "language": "en-us"
    },
    "assets": {
        "projectKind": "CustomMultiLabelClassification",
        "classes": [
            {
                "category": "Class1"
            },
            {
                "category": "Class2"
            }
        ],
        "documents": [
            {
                "location": "{DOCUMENT-NAME}",
                "language": "{LANGUAGE-CODE}",
                "dataset": "{DATASET}",
                "classes": [
                    {
                        "category": "Class1"
                    },
                    {
                        "category": "Class2"
                    }
                ]
            }
        ]
    }
}
Clé Espace réservé Valeur Exemple
multilingue true Valeur booléenne permettant au jeu de données de contenir des documents dans plusieurs langues. Quand votre modèle est déployé, vous pouvez interroger le modèle dans n’importe quelle langue prise en charge (pas nécessairement incluse dans vos documents d’entraînement). Consultez Prise en charge de la langue pour en savoir plus sur la prise en charge multilingue. true
projectName {PROJECT-NAME} Nom du projet monprojet
storageInputContainerName {CONTAINER-NAME} Nom du conteneur mycontainer
Classes [] Tableau contenant l’ensemble des classes contenues dans le projet. Il s’agit des classes selon lesquelles vous souhaitez classifier vos documents. []
dans des documents [] Tableau contenant tous les documents de votre projet et les classes étiquetées pour ce document. []
location {DOCUMENT-NAME} Emplacement des documents dans le conteneur de stockage. Tous les documents se trouvant à la racine du conteneur, cette valeur doit correspondre au nom du document. doc1.txt
dataset {DATASET} Jeu de test vers lequel ce fichier est envoyé lors du fractionnement qui précède l’apprentissage. Pour plus d’informations, consultez Comment effectuer l’apprentissage d’un modèle. Les valeurs possibles pour ce champ sont Train et Test. Train

Étapes suivantes