Share via


Formatos de dados aceitos

Se você estiver tentando importar seus dados para a classificação de texto personalizada, ele precisará seguir um formato específico. Se você não tiver dados para importar, poderá criar seu projeto e usar o Language Studio para rotular seus documentos.

Formato de arquivo de rótulos

O arquivo de rótulos deve estar no formato json abaixo. Isso permitirá que você importe seus rótulos em um projeto.

{
    "projectFileVersion": "2022-05-01",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
      "projectKind": "CustomMultiLabelClassification",
      "storageInputContainerName": "{CONTAINER-NAME}",
      "projectName": "{PROJECT-NAME}",
      "multilingual": false,
      "description": "Project-description",
      "language": "en-us"
    },
    "assets": {
      "projectKind": "CustomMultiLabelClassification",
      "classes": [
        {
          "category": "Class1"
        },
        {
          "category": "Class2"
        }
      ],
      "documents": [
          {
              "location": "{DOCUMENT-NAME}",
              "language": "{LANGUAGE-CODE}",
              "dataset": "{DATASET}",
              "classes": [
                  {
                      "category": "Class1"
                  },
                  {
                      "category": "Class2"
                  }
              ]
          }
      ]
  }
Chave Espaço reservado Valor Exemplo
multilíngue true Um valor booliano que permite ter documentos em vários idiomas no conjunto de dados e, quando o modelo é implantado, é possível consultar o modelo em qualquer idioma com suporte, (não necessariamente incluído nos documentos de treinamento). Confira suporte de idioma para saber mais sobre o suporte multilíngue. true
projectName {PROJECT-NAME} Nome do projeto myproject
storageInputContainerName {CONTAINER-NAME} Nome do contêiner mycontainer
classes [] Matriz que contém todas as classes presentes no projeto. São as classes em que você deseja classificar seus documentos. []
documentos [] Matriz que contém todos os documentos no projeto e as classes rotuladas para este documento. []
local {DOCUMENT-NAME} O local dos documentos no contêiner de armazenamento. Como todos os documentos estão na raiz do contêiner, esse valor deve ser o nome do documento. doc1.txt
dataset {DATASET} O conjunto de teste para o qual esse arquivo será exibido, quando dividido antes do treinamento. Confira Como treinar um modelo para obter mais informações. Os valores possíveis para esse campo são Train e Test. Train

Próximas etapas

  • Você pode importar os dados rotulados diretamente no seu projeto. Confira Como criar um projeto para saber mais sobre a importação de projetos.
  • Confira o artigo de instruções para obter mais informações sobre como rotular seus dados. Quando terminar de rotular seus dados, você poderá treinar seu modelo.