Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Si está intentando importar sus datos a un NER personalizado, debe seguir un formato específico. Si no tiene datos para importar, puede crear el proyecto y usar Microsoft Foundry para etiquetar los documentos.
Formato de archivo de etiquetas
El archivo de etiquetas debe estar en formato json para ser utilizado en la importación de etiquetas en un proyecto.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
| Clave | Marcador de posición | Value | Ejemplo |
|---|---|---|---|
multilingual |
true |
Valor booleano que le permite tener documentos en varios idiomas del conjunto de datos y, cuando se implementa el modelo, puede consultarlo en cualquier idioma admitido (no necesariamente incluido en los documentos de entrenamiento). Consulte compatibilidad con idiomas para obtener más información sobre la compatibilidad multilingüe. | true |
projectName |
{PROJECT-NAME} |
Nombre de proyecto | myproject |
| storageInputContainerName | {CONTAINER-NAME} |
Nombre del contenedor | mycontainer |
entities |
Matriz que contiene todos los tipos de entidad que tiene en el proyecto. Tipos de entidad extraídos de los documentos. | ||
documents |
Matriz que contiene todos los documentos del proyecto y la lista de las entidades etiquetadas en cada documento. | [] | |
location |
{DOCUMENT-NAME} |
Ubicación de los documentos en el contenedor de almacenamiento. Puesto que todos los documentos están en la raíz del contenedor, esta ubicación debe ser el nombre del documento. | doc1.txt |
dataset |
{DATASET} |
Conjunto de pruebas al que este archivo va cuando se divide antes del entrenamiento. Encuentre más información sobre la división de datos aquí. Los valores posibles que admite este campo son Train y Test. |
Train |
regionOffset |
Posición del carácter inclusivo del inicio del texto. | 0 |
|
regionLength |
Longitud del rectángulo delimitador en términos de caracteres UTF16. El entrenamiento solo tiene en cuenta los datos de esta región. | 500 |
|
category |
Tipo de entidad asociada al intervalo de texto especificado. | Entity1 |
|
offset |
Posición inicial del texto de la entidad. | 25 |
|
length |
Longitud de la entidad en términos de caracteres UTF16. | 20 |
|
language |
{LANGUAGE-CODE} |
Una cadena que especifica el código de idioma del documento que se usa en el proyecto. Si el proyecto es un proyecto multilingüe, elija el código de idioma para la mayoría de los documentos. Para obtener más información, consulteCompatibilidad de idiomas. | en-us |
Pasos siguientes
- Puede importar los datos etiquetados directamente en el proyecto. Más información sobre cómo importar un proyecto
- Consulte el artículo de procedimientos para más información sobre el etiquetado de los datos. Cuando haya terminado de etiquetar los datos, puede entrenar el modelo.