Partilhar via


Formatos de dados aceites na análise de texto personalizada para o estado de funcionamento

Utilize este artigo para saber mais sobre a formatação dos seus dados para serem importados para análise de texto personalizada para o estado de funcionamento.

Se estiver a tentar importar os seus dados para Análise de texto personalizado para saúde, este tem de seguir um formato específico. Se não tiver dados para importar, pode criar o seu projeto e utilizar o Language Studio para etiquetar os seus documentos.

O ficheiro Etiquetas deve estar no json formato abaixo para ser utilizado ao importar as etiquetas para um projeto.

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

Chave Marcador de posição Valor Exemplo
multilingual true Um valor booleano que lhe permite ter documentos em vários idiomas no seu conjunto de dados e quando o modelo é implementado pode consultar o modelo em qualquer idioma suportado (não necessariamente incluído nos seus documentos de preparação). Veja o suporte de idiomas para saber mais sobre o suporte multilinngue. true
projectName {PROJECT-NAME} Nome do projeto myproject
storageInputContainerName {CONTAINER-NAME} Nome do contentor mycontainer
entities Matriz que contém todos os tipos de entidade que tem no projeto. Estes são os tipos de entidade que serão extraídos dos seus documentos para.
category O nome do tipo de entidade, que pode ser definido pelo utilizador para novas definições de entidade ou predefinido para entidades pré-criadas. Para obter mais informações, veja as regras de nomenclatura de entidades abaixo.
compositionSetting {COMPOSITION-SETTING} Regra que define como gerir múltiplos componentes na sua entidade. As opções são combineComponents ou separateComponents. combineComponents
list Matriz que contém todas as sublists que tem no projeto para uma entidade específica. As listas podem ser adicionadas a entidades pré-criadas ou a novas entidades com componentes aprendidos.
sublists [] Matriz que contém sublists. Cada sublist é uma chave e os respetivos valores associados. []
listKey One Um valor normalizado para a lista de sinónimos a mapear novamente na predição. One
synonyms [] Matriz que contém todos os sinónimos sinónimo
language {LANGUAGE-CODE} Uma cadeia que especifica o código de idioma do sinónimo na sua sublist. Se o seu projeto for um projeto multilingue e quiser suportar a sua lista de sinónimos para todos os idiomas do seu projeto, tem de adicionar explicitamente os seus sinónimos a cada idioma. Veja Suporte de idiomas para obter mais informações sobre os códigos de idioma suportados. en
values "EntityNumberone", "FirstEntity" Uma lista de cadeias separadas por vírgulas que serão correspondidas exatamente para extração e mapear para a chave de lista. "EntityNumberone", "FirstEntity"
prebuilts MedicationName O nome do componente pré-criado que preenche a entidade pré-criada. As entidades pré-criadas são carregadas automaticamente para o seu projeto por predefinição, mas pode expandi-las com componentes de lista no ficheiro de etiquetas. MedicationName
documents Matriz que contém todos os documentos no seu projeto e lista das entidades etiquetadas em cada documento. []
location {DOCUMENT-NAME} A localização dos documentos no contentor de armazenamento. Uma vez que todos os documentos estão na raiz do contentor, este deve ser o nome do documento. doc1.txt
dataset {DATASET} O conjunto de teste para o qual este ficheiro é dividido antes da preparação. Saiba mais sobre a divisão de dados aqui. Os valores possíveis para este campo são Train e Test. Train
regionOffset A posição de caráter inclusivo do início do texto. 0
regionLength O comprimento da caixa delimitadora em termos de carateres UTF16. A formação considera apenas os dados nesta região. 500
category O tipo de entidade associada ao intervalo de texto especificado. Entity1
offset A posição de início do texto da entidade. 25
length O comprimento da entidade em termos de carateres UTF16. 20
language {LANGUAGE-CODE} Uma cadeia que especifica o código de idioma do documento utilizado no seu projeto. Se o projeto for um projeto multilinngue, escolha o código de idioma da maioria dos documentos. Veja Suporte de idiomas para obter mais informações sobre os códigos de idioma suportados. en

Regras de nomenclatura de entidades

  1. Os nomes de entidades pré-criados são predefinidos. Têm de ser preenchidos com um componente pré-criado e têm de corresponder ao nome da entidade.
  2. As novas entidades definidas pelo utilizador (entidades com componentes aprendidos ou texto etiquetado) não podem utilizar nomes de entidades pré-criados.
  3. As novas entidades definidas pelo utilizador não podem ser preenchidas com componentes pré-criados, uma vez que os componentes pré-criados têm de corresponder aos nomes das entidades associadas e não têm dados etiquetados atribuídos à mesma na matriz de documentos.

Passos seguintes