Formati di dati NER personalizzati
Se si sta tentando di importare i dati in NER personalizzati, è necessario seguire un formato specifico. Se non si hanno dati da importare, è possibile creare il progetto e usare Language Studio per etichettare i documenti.
Formato file etichette
Il file Etichette deve essere nel json
formato seguente da usare per importare le etichette in un progetto.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
Chiave | Segnaposto | Valore | Esempio |
---|---|---|---|
multilingual |
true |
Valore booleano che consente di avere documenti in più lingue nel set di dati e quando il modello viene distribuito è possibile eseguire query sul modello in qualsiasi linguaggio supportato (non necessariamente incluso nei documenti di training). Per altre informazioni sul supporto multilingue, vedere Supporto linguistico. | true |
projectName |
{PROJECT-NAME} |
Project name (Nome progetto) | myproject |
storageInputContainerName | {CONTAINER-NAME} |
Nome contenitore | mycontainer |
entities |
Matrice contenente tutti i tipi di entità presenti nel progetto. Questi sono i tipi di entità che verranno estratti dai documenti in. | ||
documents |
Matrice contenente tutti i documenti nel progetto e l'elenco delle entità etichettate all'interno di ogni documento. | [] | |
location |
{DOCUMENT-NAME} |
Percorso dei documenti nel contenitore di archiviazione. Poiché tutti i documenti si trovano nella radice del contenitore, questo deve essere il nome del documento. | doc1.txt |
dataset |
{DATASET} |
Il test impostato su cui verrà eseguito questo file quando viene suddiviso prima del training. Altre informazioni sulla suddivisione dei dati qui . I valori possibili per questo campo sono Train e Test . |
Train |
regionOffset |
Posizione del carattere inclusivo dell'inizio del testo. | 0 |
|
regionLength |
Lunghezza del rettangolo di selezione in termini di caratteri UTF16. Il training considera solo i dati in questa area. | 500 |
|
category |
Tipo di entità associata all'intervallo di testo specificato. | Entity1 |
|
offset |
Posizione iniziale per il testo dell'entità. | 25 |
|
length |
Lunghezza dell'entità in termini di caratteri UTF16. | 20 |
|
language |
{LANGUAGE-CODE} |
Stringa che specifica il codice della lingua per il documento usato nel progetto. Se il progetto è un progetto multilingue, scegliere il codice linguistico della maggior parte dei documenti. Per altre informazioni sui codici linguistici supportati, vedere Supporto della lingua. | en-us |
Passaggi successivi
- È possibile importare direttamente i dati etichettati nel progetto. Informazioni su come importare il progetto
- Per altre informazioni sull'etichettatura dei dati, vedere l'articolo su come eseguire l'etichettatura dei dati. Al termine dell'etichettatura dei dati, è possibile eseguire il training del modello.
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per