Share via


Formatos de datos aceptados

Si intenta importar los datos en una clasificación de texto personalizada, éstos deben seguir un formato específico. Si no tiene datos para importar, puede crear el proyecto y usar Language Studio para etiquetar sus documentos.

Formato de archivo de etiquetas

El archivo de etiquetas debe tener el siguiente formato json. Esto le permitirá importar las etiquetas en un proyecto.

{
    "projectFileVersion": "2022-05-01",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
      "projectKind": "CustomMultiLabelClassification",
      "storageInputContainerName": "{CONTAINER-NAME}",
      "projectName": "{PROJECT-NAME}",
      "multilingual": false,
      "description": "Project-description",
      "language": "en-us"
    },
    "assets": {
      "projectKind": "CustomMultiLabelClassification",
      "classes": [
        {
          "category": "Class1"
        },
        {
          "category": "Class2"
        }
      ],
      "documents": [
          {
              "location": "{DOCUMENT-NAME}",
              "language": "{LANGUAGE-CODE}",
              "dataset": "{DATASET}",
              "classes": [
                  {
                      "category": "Class1"
                  },
                  {
                      "category": "Class2"
                  }
              ]
          }
      ]
  }
Clave Marcador de posición Valor Ejemplo
multilingües true Valor booleano que le permite tener documentos en varios idiomas del conjunto de datos y, cuando se implementa el modelo, puede consultarlo en cualquier idioma admitido (no necesariamente incluido en los documentos de entrenamiento). Consulte Compatibilidad de idiomas para obtener más información sobre la compatibilidad multilingüe. true
projectName {PROJECT-NAME} Nombre de proyecto myproject
storageInputContainerName {CONTAINER-NAME} Nombre del contenedor mycontainer
clases [] Matriz que contiene todas las clases que tiene en el proyecto. Se trata de las clases en las que desea clasificar los documentos. []
Documentos [] Matriz que contiene todos los documentos del proyecto y las clases etiquetadas para este documento. []
ubicación {DOCUMENT-NAME} Ubicación de los documentos en el contenedor de almacenamiento. Puesto que todos los documentos están en la raíz del contenedor, este valor debe ser el nombre del documento. doc1.txt
dataset {DATASET} El conjunto de pruebas al que este archivo irá cuando se divida antes del entrenamiento. Para más información, consulte Cómo entrenar un modelo. Los valores posibles que admite este campo son Train y Test. Train

Pasos siguientes