Formatos de dados aceites na análise de texto personalizada para o estado de funcionamento
Utilize este artigo para saber mais sobre a formatação dos seus dados para serem importados para análise de texto personalizada para o estado de funcionamento.
Se estiver a tentar importar os seus dados para Análise de texto personalizado para saúde, este tem de seguir um formato específico. Se não tiver dados para importar, pode criar o seu projeto e utilizar o Language Studio para etiquetar os seus documentos.
O ficheiro Etiquetas deve estar no json
formato abaixo para ser utilizado ao importar as etiquetas para um projeto.
{
"projectFileVersion": "{API-VERSION}",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectName": "{PROJECT-NAME}",
"projectKind": "CustomHealthcare",
"description": "Trying out custom Text Analytics for health",
"language": "{LANGUAGE-CODE}",
"multilingual": true,
"storageInputContainerName": "{CONTAINER-NAME}",
"settings": {}
},
"assets": {
"projectKind": "CustomHealthcare",
"entities": [
{
"category": "Entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "One",
"synonyms": [
{
"language": "en",
"values": [
"EntityNumberOne",
"FirstEntity"
]
}
]
}
]
}
},
{
"category": "Entity2"
},
{
"category": "MedicationName",
"list": {
"sublists": [
{
"listKey": "research drugs",
"synonyms": [
{
"language": "en",
"values": [
"rdrug a",
"rdrug b"
]
}
]
}
]
}
"prebuilts": "MedicationName"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
Chave | Marcador de posição | Valor | Exemplo |
---|---|---|---|
multilingual |
true |
Um valor booleano que lhe permite ter documentos em vários idiomas no seu conjunto de dados e quando o modelo é implementado pode consultar o modelo em qualquer idioma suportado (não necessariamente incluído nos seus documentos de preparação). Veja o suporte de idiomas para saber mais sobre o suporte multilinngue. | true |
projectName |
{PROJECT-NAME} |
Nome do projeto | myproject |
storageInputContainerName |
{CONTAINER-NAME} |
Nome do contentor | mycontainer |
entities |
Matriz que contém todos os tipos de entidade que tem no projeto. Estes são os tipos de entidade que serão extraídos dos seus documentos para. | ||
category |
O nome do tipo de entidade, que pode ser definido pelo utilizador para novas definições de entidade ou predefinido para entidades pré-criadas. Para obter mais informações, veja as regras de nomenclatura de entidades abaixo. | ||
compositionSetting |
{COMPOSITION-SETTING} |
Regra que define como gerir múltiplos componentes na sua entidade. As opções são combineComponents ou separateComponents . |
combineComponents |
list |
Matriz que contém todas as sublists que tem no projeto para uma entidade específica. As listas podem ser adicionadas a entidades pré-criadas ou a novas entidades com componentes aprendidos. | ||
sublists |
[] |
Matriz que contém sublists. Cada sublist é uma chave e os respetivos valores associados. | [] |
listKey |
One |
Um valor normalizado para a lista de sinónimos a mapear novamente na predição. | One |
synonyms |
[] |
Matriz que contém todos os sinónimos | sinónimo |
language |
{LANGUAGE-CODE} |
Uma cadeia que especifica o código de idioma do sinónimo na sua sublist. Se o seu projeto for um projeto multilingue e quiser suportar a sua lista de sinónimos para todos os idiomas do seu projeto, tem de adicionar explicitamente os seus sinónimos a cada idioma. Veja Suporte de idiomas para obter mais informações sobre os códigos de idioma suportados. | en |
values |
"EntityNumberone" , "FirstEntity" |
Uma lista de cadeias separadas por vírgulas que serão correspondidas exatamente para extração e mapear para a chave de lista. | "EntityNumberone" , "FirstEntity" |
prebuilts |
MedicationName |
O nome do componente pré-criado que preenche a entidade pré-criada. As entidades pré-criadas são carregadas automaticamente para o seu projeto por predefinição, mas pode expandi-las com componentes de lista no ficheiro de etiquetas. | MedicationName |
documents |
Matriz que contém todos os documentos no seu projeto e lista das entidades etiquetadas em cada documento. | [] | |
location |
{DOCUMENT-NAME} |
A localização dos documentos no contentor de armazenamento. Uma vez que todos os documentos estão na raiz do contentor, este deve ser o nome do documento. | doc1.txt |
dataset |
{DATASET} |
O conjunto de teste para o qual este ficheiro é dividido antes da preparação. Saiba mais sobre a divisão de dados aqui. Os valores possíveis para este campo são Train e Test . |
Train |
regionOffset |
A posição de caráter inclusivo do início do texto. | 0 |
|
regionLength |
O comprimento da caixa delimitadora em termos de carateres UTF16. A formação considera apenas os dados nesta região. | 500 |
|
category |
O tipo de entidade associada ao intervalo de texto especificado. | Entity1 |
|
offset |
A posição de início do texto da entidade. | 25 |
|
length |
O comprimento da entidade em termos de carateres UTF16. | 20 |
|
language |
{LANGUAGE-CODE} |
Uma cadeia que especifica o código de idioma do documento utilizado no seu projeto. Se o projeto for um projeto multilinngue, escolha o código de idioma da maioria dos documentos. Veja Suporte de idiomas para obter mais informações sobre os códigos de idioma suportados. | en |
Regras de nomenclatura de entidades
- Os nomes de entidades pré-criados são predefinidos. Têm de ser preenchidos com um componente pré-criado e têm de corresponder ao nome da entidade.
- As novas entidades definidas pelo utilizador (entidades com componentes aprendidos ou texto etiquetado) não podem utilizar nomes de entidades pré-criados.
- As novas entidades definidas pelo utilizador não podem ser preenchidas com componentes pré-criados, uma vez que os componentes pré-criados têm de corresponder aos nomes das entidades associadas e não têm dados etiquetados atribuídos à mesma na matriz de documentos.
Passos seguintes
- Pode importar os dados etiquetados diretamente para o seu projeto. Saiba como importar o projeto
- Veja o artigo de procedimentos para obter mais informações sobre a etiquetagem dos seus dados.
- Quando terminar de etiquetar os seus dados, pode preparar o modelo.