Formatos de dados NER personalizados aceites

Se estiver a tentar importar os seus dados para o NER personalizado, este tem de seguir um formato específico. Se não tiver dados para importar, pode criar o seu projeto e utilizar o Language Studio para etiquetar os seus documentos.

Formato de ficheiro etiquetas

O ficheiro Etiquetas deve estar no json formato abaixo para ser utilizado na importação das etiquetas para um projeto.

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Chave Marcador de posição Valor Exemplo
multilingual true Um valor booleano que lhe permite ter documentos em vários idiomas no seu conjunto de dados e quando o modelo é implementado pode consultar o modelo em qualquer idioma suportado (não necessariamente incluído nos seus documentos de preparação). Veja o suporte de idiomas para saber mais sobre o suporte multilinngue. true
projectName {PROJECT-NAME} Nome do projeto myproject
storageInputContainerName {CONTAINER-NAME} Nome do contentor mycontainer
entities Matriz que contém todos os tipos de entidade que tem no projeto. Estes são os tipos de entidade que serão extraídos dos seus documentos para.
documents Matriz que contém todos os documentos no seu projeto e lista das entidades etiquetadas em cada documento. []
location {DOCUMENT-NAME} A localização dos documentos no contentor de armazenamento. Uma vez que todos os documentos estão na raiz do contentor, este deve ser o nome do documento. doc1.txt
dataset {DATASET} O conjunto de testes para o qual este ficheiro será dividido antes da preparação. Saiba mais sobre a divisão de dados aqui . Os valores possíveis para este campo são Train e Test. Train
regionOffset A posição de caráter inclusivo do início do texto. 0
regionLength O comprimento da caixa delimitadora em termos de carateres UTF16. A formação considera apenas os dados nesta região. 500
category O tipo de entidade associada ao intervalo de texto especificado. Entity1
offset A posição de início do texto da entidade. 25
length O comprimento da entidade em termos de carateres UTF16. 20
language {LANGUAGE-CODE} Uma cadeia que especifica o código de idioma do documento utilizado no seu projeto. Se o projeto for um projeto multilinngue, escolha o código de idioma da maioria dos documentos. Veja Suporte de idiomas para obter mais informações sobre os códigos de idioma suportados. en-us

Passos seguintes