Formati di dati accettati nell'analisi del testo personalizzata per l'integrità
Usare questo articolo per informazioni sulla formattazione dei dati da importare in analisi del testo personalizzata per l'integrità.
Se si sta tentando di importare i dati in Analisi testuale personalizzata per la salute, è necessario seguire un formato specifico. Se non si dispone di dati da importare, è possibile creare il progetto e usare Language Studio per etichettare i documenti.
Il file Labels deve essere nel json
formato seguente da usare durante l'importazione delle etichette in un progetto.
{
"projectFileVersion": "{API-VERSION}",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectName": "{PROJECT-NAME}",
"projectKind": "CustomHealthcare",
"description": "Trying out custom Text Analytics for health",
"language": "{LANGUAGE-CODE}",
"multilingual": true,
"storageInputContainerName": "{CONTAINER-NAME}",
"settings": {}
},
"assets": {
"projectKind": "CustomHealthcare",
"entities": [
{
"category": "Entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "One",
"synonyms": [
{
"language": "en",
"values": [
"EntityNumberOne",
"FirstEntity"
]
}
]
}
]
}
},
{
"category": "Entity2"
},
{
"category": "MedicationName",
"list": {
"sublists": [
{
"listKey": "research drugs",
"synonyms": [
{
"language": "en",
"values": [
"rdrug a",
"rdrug b"
]
}
]
}
]
}
"prebuilts": "MedicationName"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
Chiave | Segnaposto | Valore | Esempio |
---|---|---|---|
multilingual |
true |
Valore booleano che consente di avere documenti in più lingue nel set di dati e quando il modello viene distribuito, è possibile eseguire query sul modello in qualsiasi linguaggio supportato (non necessariamente incluso nei documenti di training). Per altre informazioni sul supporto multilingue, vedere Supporto linguistico. | true |
projectName |
{PROJECT-NAME} |
Project name (Nome progetto) | myproject |
storageInputContainerName |
{CONTAINER-NAME} |
Nome contenitore | mycontainer |
entities |
Matrice contenente tutti i tipi di entità presenti nel progetto. Questi sono i tipi di entità che verranno estratti dai documenti in . | ||
category |
Nome del tipo di entità, che può essere definito dall'utente per le nuove definizioni di entità o predefinito per le entità predefinite. Per altre informazioni, vedere le regole di denominazione delle entità di seguito. | ||
compositionSetting |
{COMPOSITION-SETTING} |
Regola che definisce come gestire più componenti nell'entità. Le opzioni sono combineComponents o separateComponents . |
combineComponents |
list |
Matrice contenente tutti gli elenchi secondari presenti nel progetto per un'entità specifica. Gli elenchi possono essere aggiunti a entità predefinite o a nuove entità con componenti appresi. | ||
sublists |
[] |
Matrice contenente sottoliste. Ogni sottolista è una chiave e i relativi valori associati. | [] |
listKey |
One |
Valore normalizzato per l'elenco di sinonimi a cui eseguire il mapping nella stima. | One |
synonyms |
[] |
Matrice contenente tutti i sinonimi | sinonimo |
language |
{LANGUAGE-CODE} |
Stringa che specifica il codice della lingua per il sinonimo nell'elenco secondario. Se il progetto è un progetto multilingue e si vuole supportare l'elenco di sinonimi per tutte le lingue del progetto, è necessario aggiungere in modo esplicito i sinonimi a ogni lingua. Per altre informazioni sui codici linguistici supportati, vedere Supporto della lingua . | en |
values |
"EntityNumberone" , "FirstEntity" |
Elenco di stringhe separate da virgole corrispondenti esattamente per l'estrazione e il mapping alla chiave dell'elenco. |
"EntityNumberone" , "FirstEntity" |
prebuilts |
MedicationName |
Nome del componente predefinito che popola l'entità predefinita. Le entità predefinite vengono caricate automaticamente nel progetto per impostazione predefinita, ma è possibile estenderle con i componenti dell'elenco nel file di etichette. | MedicationName |
documents |
Matrice contenente tutti i documenti nel progetto e l'elenco delle entità etichettate all'interno di ogni documento. | [] | |
location |
{DOCUMENT-NAME} |
Posizione dei documenti nel contenitore di archiviazione. Poiché tutti i documenti si trovano nella radice del contenitore, questo deve essere il nome del documento. | doc1.txt |
dataset |
{DATASET} |
Set di test a cui questo file passa quando viene diviso prima del training. Altre informazioni sulla suddivisione dei dati sono disponibili qui. I valori possibili per questo campo sono Train e Test . |
Train |
regionOffset |
Posizione del carattere inclusivo dell'inizio del testo. | 0 |
|
regionLength |
Lunghezza del rettangolo di selezione in termini di caratteri UTF16. Il training considera solo i dati in questa area. | 500 |
|
category |
Tipo di entità associata all'intervallo di testo specificato. | Entity1 |
|
offset |
Posizione iniziale per il testo dell'entità. | 25 |
|
length |
Lunghezza dell'entità in termini di caratteri UTF16. | 20 |
|
language |
{LANGUAGE-CODE} |
Stringa che specifica il codice della lingua per il documento utilizzato nel progetto. Se il progetto è un progetto multilingue, scegliere il codice linguistico della maggior parte dei documenti. Per altre informazioni sui codici linguistici supportati, vedere Supporto della lingua . | en |
Regole di denominazione delle entità
- I nomi di entità predefiniti sono predefiniti. Devono essere popolati con un componente predefinito e devono corrispondere al nome dell'entità.
- Le nuove entità definite dall'utente (entità con componenti appresi o testo etichettato) non possono usare nomi di entità predefinite.
- Le nuove entità definite dall'utente non possono essere popolate con componenti predefiniti perché i componenti predefiniti devono corrispondere ai nomi delle entità associate e non hanno dati etichettati assegnati nella matrice di documenti.
Passaggi successivi
- È possibile importare direttamente i dati etichettati nel progetto. Informazioni su come importare il progetto
- Per altre informazioni sull'etichettatura dei dati, vedere l'articolo sulle procedure .
- Al termine dell'etichettatura dei dati, è possibile eseguire il training del modello.
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per