Formatos de dados NER personalizados aceites

Artigo
12/19/2023

Se estiver a tentar importar os seus dados para o NER personalizado, este tem de seguir um formato específico. Se não tiver dados para importar, pode criar o seu projeto e utilizar o Language Studio para etiquetar os seus documentos.

Formato de ficheiro etiquetas

O ficheiro Etiquetas deve estar no json formato abaixo para ser utilizado na importação das etiquetas para um projeto.

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Chave	Marcador de posição	Valor	Exemplo
`multilingual`	`true`	Um valor booleano que lhe permite ter documentos em vários idiomas no seu conjunto de dados e quando o modelo é implementado pode consultar o modelo em qualquer idioma suportado (não necessariamente incluído nos seus documentos de preparação). Veja o suporte de idiomas para saber mais sobre o suporte multilinngue.	`true`
`projectName`	`{PROJECT-NAME}`	Nome do projeto	`myproject`
storageInputContainerName	`{CONTAINER-NAME}`	Nome do contentor	`mycontainer`
`entities`		Matriz que contém todos os tipos de entidade que tem no projeto. Estes são os tipos de entidade que serão extraídos dos seus documentos para.
`documents`		Matriz que contém todos os documentos no seu projeto e lista das entidades etiquetadas em cada documento.	[]
`location`	`{DOCUMENT-NAME}`	A localização dos documentos no contentor de armazenamento. Uma vez que todos os documentos estão na raiz do contentor, este deve ser o nome do documento.	`doc1.txt`
`dataset`	`{DATASET}`	O conjunto de testes para o qual este ficheiro será dividido antes da preparação. Saiba mais sobre a divisão de dados aqui . Os valores possíveis para este campo são `Train` e `Test`.	`Train`
`regionOffset`		A posição de caráter inclusivo do início do texto.	`0`
`regionLength`		O comprimento da caixa delimitadora em termos de carateres UTF16. A formação considera apenas os dados nesta região.	`500`
`category`		O tipo de entidade associada ao intervalo de texto especificado.	`Entity1`
`offset`		A posição de início do texto da entidade.	`25`
`length`		O comprimento da entidade em termos de carateres UTF16.	`20`
`language`	`{LANGUAGE-CODE}`	Uma cadeia que especifica o código de idioma do documento utilizado no seu projeto. Se o projeto for um projeto multilinngue, escolha o código de idioma da maioria dos documentos. Veja Suporte de idiomas para obter mais informações sobre os códigos de idioma suportados.	`en-us`

Passos seguintes

Pode importar os dados etiquetados diretamente para o seu projeto. Saiba como importar o projeto
Veja o artigo de procedimentos para obter mais informações sobre a etiquetagem dos seus dados. Quando terminar de etiquetar os seus dados, pode preparar o modelo.

Formatos de dados NER personalizados aceites

Formato de ficheiro etiquetas

Passos seguintes

Recursos adicionais