Formatos de dados aceites na análise de texto personalizada para o estado de funcionamento

Artigo
12/19/2023

Utilize este artigo para saber mais sobre a formatação dos seus dados para serem importados para análise de texto personalizada para o estado de funcionamento.

Se estiver a tentar importar os seus dados para Análise de texto personalizado para saúde, este tem de seguir um formato específico. Se não tiver dados para importar, pode criar o seu projeto e utilizar o Language Studio para etiquetar os seus documentos.

O ficheiro Etiquetas deve estar no json formato abaixo para ser utilizado ao importar as etiquetas para um projeto.

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

Chave	Marcador de posição	Valor	Exemplo
`multilingual`	`true`	Um valor booleano que lhe permite ter documentos em vários idiomas no seu conjunto de dados e quando o modelo é implementado pode consultar o modelo em qualquer idioma suportado (não necessariamente incluído nos seus documentos de preparação). Veja o suporte de idiomas para saber mais sobre o suporte multilinngue.	`true`
`projectName`	`{PROJECT-NAME}`	Nome do projeto	`myproject`
`storageInputContainerName`	`{CONTAINER-NAME}`	Nome do contentor	`mycontainer`
`entities`		Matriz que contém todos os tipos de entidade que tem no projeto. Estes são os tipos de entidade que serão extraídos dos seus documentos para.
`category`		O nome do tipo de entidade, que pode ser definido pelo utilizador para novas definições de entidade ou predefinido para entidades pré-criadas. Para obter mais informações, veja as regras de nomenclatura de entidades abaixo.
`compositionSetting`	`{COMPOSITION-SETTING}`	Regra que define como gerir múltiplos componentes na sua entidade. As opções são `combineComponents` ou `separateComponents`.	`combineComponents`
`list`		Matriz que contém todas as sublists que tem no projeto para uma entidade específica. As listas podem ser adicionadas a entidades pré-criadas ou a novas entidades com componentes aprendidos.
`sublists`	`[]`	Matriz que contém sublists. Cada sublist é uma chave e os respetivos valores associados.	`[]`
`listKey`	`One`	Um valor normalizado para a lista de sinónimos a mapear novamente na predição.	`One`
`synonyms`	`[]`	Matriz que contém todos os sinónimos	sinónimo
`language`	`{LANGUAGE-CODE}`	Uma cadeia que especifica o código de idioma do sinónimo na sua sublist. Se o seu projeto for um projeto multilingue e quiser suportar a sua lista de sinónimos para todos os idiomas do seu projeto, tem de adicionar explicitamente os seus sinónimos a cada idioma. Veja Suporte de idiomas para obter mais informações sobre os códigos de idioma suportados.	`en`
`values`	`"EntityNumberone"`, `"FirstEntity"`	Uma lista de cadeias separadas por vírgulas que serão correspondidas exatamente para extração e mapear para a chave de lista.	`"EntityNumberone"`, `"FirstEntity"`
`prebuilts`	`MedicationName`	O nome do componente pré-criado que preenche a entidade pré-criada. As entidades pré-criadas são carregadas automaticamente para o seu projeto por predefinição, mas pode expandi-las com componentes de lista no ficheiro de etiquetas.	`MedicationName`
`documents`		Matriz que contém todos os documentos no seu projeto e lista das entidades etiquetadas em cada documento.	[]
`location`	`{DOCUMENT-NAME}`	A localização dos documentos no contentor de armazenamento. Uma vez que todos os documentos estão na raiz do contentor, este deve ser o nome do documento.	`doc1.txt`
`dataset`	`{DATASET}`	O conjunto de teste para o qual este ficheiro é dividido antes da preparação. Saiba mais sobre a divisão de dados aqui. Os valores possíveis para este campo são `Train` e `Test`.	`Train`
`regionOffset`		A posição de caráter inclusivo do início do texto.	`0`
`regionLength`		O comprimento da caixa delimitadora em termos de carateres UTF16. A formação considera apenas os dados nesta região.	`500`
`category`		O tipo de entidade associada ao intervalo de texto especificado.	`Entity1`
`offset`		A posição de início do texto da entidade.	`25`
`length`		O comprimento da entidade em termos de carateres UTF16.	`20`
`language`	`{LANGUAGE-CODE}`	Uma cadeia que especifica o código de idioma do documento utilizado no seu projeto. Se o projeto for um projeto multilinngue, escolha o código de idioma da maioria dos documentos. Veja Suporte de idiomas para obter mais informações sobre os códigos de idioma suportados.	`en`

Regras de nomenclatura de entidades

Os nomes de entidades pré-criados são predefinidos. Têm de ser preenchidos com um componente pré-criado e têm de corresponder ao nome da entidade.
As novas entidades definidas pelo utilizador (entidades com componentes aprendidos ou texto etiquetado) não podem utilizar nomes de entidades pré-criados.
As novas entidades definidas pelo utilizador não podem ser preenchidas com componentes pré-criados, uma vez que os componentes pré-criados têm de corresponder aos nomes das entidades associadas e não têm dados etiquetados atribuídos à mesma na matriz de documentos.

Passos seguintes

Pode importar os dados etiquetados diretamente para o seu projeto. Saiba como importar o projeto
Veja o artigo de procedimentos para obter mais informações sobre a etiquetagem dos seus dados.
Quando terminar de etiquetar os seus dados, pode preparar o modelo.

Partilhar via

Formatos de dados aceites na análise de texto personalizada para o estado de funcionamento

Regras de nomenclatura de entidades

Passos seguintes

Recursos adicionais