Formats de données acceptés
Si vous essayez d’importer vos données dans la classification de texte personnalisée, il doit suivre un format spécifique. Si vous n’avez pas de données à importer, vous pouvez créer votre projet, puis utiliser Language Studio pour étiqueter vos documents.
Format de fichier d’étiquettes
Votre fichier d’étiquettes doit être au format json
ci-dessous. Cela vous permet d’importer vos étiquettes dans un projet.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomMultiLabelClassification",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us"
},
"assets": {
"projectKind": "CustomMultiLabelClassification",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
]
}
]
}
}
Clé | Espace réservé | Valeur | Exemple |
---|---|---|---|
multilingue | true |
Valeur booléenne permettant au jeu de données de contenir des documents dans plusieurs langues. Quand votre modèle est déployé, vous pouvez interroger le modèle dans n’importe quelle langue prise en charge (pas nécessairement incluse dans vos documents d’entraînement). Consultez Prise en charge de la langue pour en savoir plus sur la prise en charge multilingue. | true |
projectName | {PROJECT-NAME} |
Nom du projet | monprojet |
storageInputContainerName | {CONTAINER-NAME} |
Nom du conteneur | mycontainer |
Classes | [] | Tableau contenant l’ensemble des classes contenues dans le projet. Il s’agit des classes selon lesquelles vous souhaitez classifier vos documents. | [] |
dans des documents | [] | Tableau contenant tous les documents de votre projet et les classes étiquetées pour ce document. | [] |
location | {DOCUMENT-NAME} |
Emplacement des documents dans le conteneur de stockage. Tous les documents se trouvant à la racine du conteneur, cette valeur doit correspondre au nom du document. | doc1.txt |
dataset | {DATASET} |
Jeu de test vers lequel ce fichier est envoyé lors du fractionnement qui précède l’apprentissage. Pour plus d’informations, consultez Comment effectuer l’apprentissage d’un modèle. Les valeurs possibles pour ce champ sont Train et Test . |
Train |
Étapes suivantes
- Vous pouvez importer vos données étiquetées directement dans votre projet. Pour plus d’informations sur l’importation de projets, consultez Comment créer un projet.
- Pour plus d’informations sur l’étiquetage de vos données, consultez l’article de guide pratique. Une fois que vous avez fini d’étiqueter vos données, vous pouvez effectuer l’apprentissage de votre modèle.