Formati di dati accettati

Se si sta tentando di importare i dati in una classificazione di testo personalizzata, è necessario seguire un formato specifico. Se non si dispone di dati da importare, è possibile creare il progetto e usare Language Studio per etichettare i documenti.

Formato file etichette

Il file Labels deve essere nel json formato seguente. In questo modo sarà possibile importare le etichette in un progetto.

{
    "projectFileVersion": "2022-05-01",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
      "projectKind": "CustomMultiLabelClassification",
      "storageInputContainerName": "{CONTAINER-NAME}",
      "projectName": "{PROJECT-NAME}",
      "multilingual": false,
      "description": "Project-description",
      "language": "en-us"
    },
    "assets": {
      "projectKind": "CustomMultiLabelClassification",
      "classes": [
        {
          "category": "Class1"
        },
        {
          "category": "Class2"
        }
      ],
      "documents": [
          {
              "location": "{DOCUMENT-NAME}",
              "language": "{LANGUAGE-CODE}",
              "dataset": "{DATASET}",
              "classes": [
                  {
                      "category": "Class1"
                  },
                  {
                      "category": "Class2"
                  }
              ]
          }
      ]
  }
Chiave Segnaposto Valore Esempio
Multilingue true Valore booleano che consente di avere documenti in più lingue nel set di dati e quando il modello viene distribuito, è possibile eseguire query sul modello in qualsiasi linguaggio supportato (non necessariamente incluso nei documenti di training). Per altre informazioni sul supporto multilingue, vedere Supporto linguistico. true
projectName {PROJECT-NAME} Project name (Nome progetto) Myproject
storageInputContainerName {CONTAINER-NAME} Nome contenitore mycontainer
classi [] Matrice contenente tutte le classi presenti nel progetto. Queste sono le classi in cui classificare i documenti. []
documenti [] Matrice contenente tutti i documenti nel progetto e le classi etichettate per questo documento. []
posizione {DOCUMENT-NAME} Posizione dei documenti nel contenitore di archiviazione. Poiché tutti i documenti si trovano nella radice del contenitore, questo valore deve essere il nome del documento. doc1.txt
dataset {DATASET} Set di test a cui verrà passato questo file quando si divide prima del training. Per altre informazioni, vedere Come eseguire il training di un modello . I valori possibili per questo campo sono Train e Test. Train

Passaggi successivi