Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Se você está tentando importar seus dados para o NER personalizado, ele deve seguir um formato específico. Se não tiver dados para importar, pode criar o seu projeto e usar o Microsoft Foundry para rotular os seus documentos.
Formato de arquivo de etiquetas
Seu arquivo de etiquetas deve estar em json formato para uso na importação de suas etiquetas para um projeto.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
| Chave | Marcador de Posição | valor | Exemplo |
|---|---|---|---|
multilingual |
true |
Um valor booleano que permite que você tenha documentos em vários idiomas em seu conjunto de dados e, quando seu modelo é implantado, você pode consultar o modelo em qualquer idioma suportado (não necessariamente incluído em seus documentos de treinamento). Consulte o suporte linguístico para saber mais sobre o suporte multilingue. | true |
projectName |
{PROJECT-NAME} |
Nome do projeto | myproject |
| storageInputContainerName | {CONTAINER-NAME} |
Nome do contentor | mycontainer |
entities |
Matriz contendo todos os tipos de entidade que você tem no projeto. Tipos de entidade extraídos dos seus documentos. | ||
documents |
Matriz contendo todos os documentos em seu projeto e lista das entidades rotuladas dentro de cada documento. | [] | |
location |
{DOCUMENT-NAME} |
A localização dos documentos no recipiente de armazenamento. Como todos os documentos estão na raiz do contêiner, esse local deve ser o nome do documento. | doc1.txt |
dataset |
{DATASET} |
O conjunto de testes para o qual esse arquivo vai quando dividido antes do treinamento. Saiba mais sobre a divisão de dados aqui . Os valores possíveis para este campo são Train e Test. |
Train |
regionOffset |
A posição de caracteres inclusivos do início do texto. | 0 |
|
regionLength |
O comprimento da caixa delimitadora em termos de caracteres UTF16. A formação considera apenas os dados desta região. | 500 |
|
category |
O tipo de entidade associada à extensão de texto especificada. | Entity1 |
|
offset |
A posição inicial do texto da entidade. | 25 |
|
length |
O comprimento da entidade em termos de caracteres UTF16. | 20 |
|
language |
{LANGUAGE-CODE} |
Uma cadeia de caracteres especificando o código de idioma para o documento usado em seu projeto. Se o seu projeto for multilingue, escolha o código linguístico para a maioria dos documentos. Para obter mais informações, consulteSuporte a idiomas. | en-us |
Próximos passos
- Você pode importar seus dados rotulados para seu projeto diretamente. Saiba como importar projeto
- Consulte o artigo de instruções para obter mais informações sobre como rotular seus dados. Quando terminar de rotular seus dados, você poderá treinar seu modelo.