Guia de início rápido: análise de texto personalizada para integridade

Artigo
01/10/2024

Use este artigo para começar a criar um projeto personalizado de Análise de Texto para integridade, onde você pode treinar modelos personalizados sobre a Análise de Texto para integridade para reconhecimento de entidade personalizada. Um modelo é um software de inteligência artificial que é treinado para fazer uma determinada tarefa. Para este sistema, os modelos extraem entidades nomeadas relacionadas com cuidados de saúde e são treinados aprendendo com dados rotulados.

Neste artigo, usamos o Language Studio para demonstrar conceitos-chave da Análise de Texto personalizada para integridade. Como exemplo, criaremos um modelo personalizado de Análise de Texto para saúde para extrair a Instalação ou o local de tratamento de breves notas de alta.

Pré-requisitos

Subscrição do Azure - Criar uma gratuitamente

Nome	Descrição
Subscrição	A sua subscrição do Azure.
Grupo de recursos	Um grupo de recursos que conterá seu recurso. Você pode usar um existente ou criar um novo.
País/Região	A região do seu recurso Idioma. Por exemplo, "West US 2".
Nome	Um nome para o seu recurso.
Escalão de preço	A camada de preço para seu recurso de idioma. Você pode usar a camada Gratuito (F0) para experimentar o serviço.

Valor da conta de armazenamento	Valor recomendado
Nome da conta de armazenamento	Qualquer nome
Storage account type	LRS padrão

Marcador de Posição	valor	Exemplo
`{ENDPOINT}`	O ponto de extremidade para autenticar sua solicitação de API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	O nome do seu projeto. Esse valor diferencia maiúsculas de minúsculas.	`myProject`
`{API-VERSION}`	A versão da API que você está chamando. O valor referenciado aqui é para a última versão lançada. Consulte Ciclo de vida do modelo para saber mais sobre outras versões de API disponíveis.	`2022-05-01`

Key	Marcador de Posição	valor	Exemplo
`multilingual`	`true`	Um valor booleano que permite que você tenha documentos em vários idiomas em seu conjunto de dados e, quando seu modelo é implantado, você pode consultar o modelo em qualquer idioma suportado (não necessariamente incluído em seus documentos de treinamento). Consulte o suporte linguístico para saber mais sobre o suporte multilingue.	`true`
`projectName`	`{PROJECT-NAME}`	Nome do projeto	`myproject`
`storageInputContainerName`	`{CONTAINER-NAME}`	Nome do contentor	`mycontainer`
`entities`		Matriz contendo todos os tipos de entidade que você tem no projeto. Estes são os tipos de entidade que serão extraídos dos seus documentos.
`category`		O nome do tipo de entidade, que pode ser definido pelo usuário para novas definições de entidade ou predefinido para entidades pré-criadas.
`compositionSetting`	`{COMPOSITION-SETTING}`	Regra que define como gerenciar vários componentes em sua entidade. As opções são `combineComponents` ou `separateComponents`.	`combineComponents`
`list`		Matriz que contém todas as sublistas que você tem no projeto para uma entidade específica. As listas podem ser adicionadas a entidades pré-criadas ou a novas entidades com componentes aprendidos.
`sublists`	`[]`	Matriz contendo sublistas. Cada sublista é uma chave e seus valores associados.	`[]`
`listKey`	`One`	Um valor normalizado para a lista de sinônimos a serem mapeados de volta na previsão.	`One`
`synonyms`	`[]`	Matriz contendo todos os sinónimos	sinónimo
`language`	`{LANGUAGE-CODE}`	Uma cadeia de caracteres que especifica o código de idioma para o sinônimo em sua sublista. Se o seu projeto for multilingue e pretender apoiar a sua lista de sinónimos para todas as línguas do projeto, tem de adicionar explicitamente os seus sinónimos a cada língua. Consulte Suporte a idiomas para obter mais informações sobre códigos de idiomas suportados.	`en`
`values`	`"EntityNumberone"`, `"FirstEntity"`	Uma lista de cadeias de caracteres separadas por vírgulas que serão correspondidas exatamente para extração e mapeada para a chave de lista.	`"EntityNumberone"`, `"FirstEntity"`
`prebuilts`	`MedicationName`	O nome do componente pré-construído que preenche a entidade pré-construída. As entidades pré-criadas são carregadas automaticamente em seu projeto por padrão, mas você pode estendê-las com componentes de lista em seu arquivo de etiquetas.	`MedicationName`
`documents`		Matriz contendo todos os documentos em seu projeto e lista das entidades rotuladas dentro de cada documento.	[]
`location`	`{DOCUMENT-NAME}`	A localização dos documentos no recipiente de armazenamento. Como todos os documentos estão na raiz do contêiner, este deve ser o nome do documento.	`doc1.txt`
`dataset`	`{DATASET}`	O conjunto de testes para o qual este arquivo irá quando dividido antes do treinamento. Os valores possíveis para este campo são `Train` e `Test`.	`Train`
`regionOffset`		A posição de caracteres inclusivos do início do texto.	`0`
`regionLength`		O comprimento da caixa delimitadora em termos de caracteres UTF16. A formação considera apenas os dados desta região.	`500`
`category`		O tipo de entidade associada à extensão de texto especificada.	`Entity1`
`offset`		A posição inicial do texto da entidade.	`25`
`length`		O comprimento da entidade em termos de caracteres UTF16.	`20`
`language`	`{LANGUAGE-CODE}`	Uma cadeia de caracteres especificando o código de idioma para o documento usado em seu projeto. Se o seu projeto for multilingue, escolha o código linguístico da maioria dos documentos. Consulte Suporte a idiomas para obter mais informações sobre códigos de idiomas suportados.	`en`

Key	Marcador de Posição	valor	Exemplo
modelLabel	`{MODEL-NAME}`	O nome do modelo que é atribuído ao seu modelo depois de treinado com êxito.	`myModel`
trainingConfigVersion	`{CONFIG-VERSION}`	Esta é a versão do modelo que é usada para treinar o modelo.	`2022-05-01`
avaliaçãoOpções		Opção para dividir seus dados entre conjuntos de treinamento e teste.	`{}`
variante	`percentage`	Métodos de divisão. Os valores possíveis são `percentage` ou `manual`. Consulte Como treinar um modelo para obter mais informações.	`percentage`
formaçãoSplitPercentage	`80`	Porcentagem dos dados marcados a serem incluídos no conjunto de treinamento. O valor recomendado é `80`.	`80`
testingSplitPercentage	`20`	Porcentagem dos dados marcados a serem incluídos no conjunto de testes. O valor recomendado é `20`.	`20`

Key	Marcador de Posição	valor	Exemplo
`displayName`	`{JOB-NAME}`	O nome do seu trabalho.	`MyJobName`
`documents`	[{},{}]	Lista de documentos para executar tarefas.	`[{},{}]`
`id`	`{DOC-ID}`	Nome ou ID do documento.	`doc1`
`language`	`{LANGUAGE-CODE}`	Uma cadeia de caracteres especificando o código de idioma para o documento. Se essa chave não for especificada, o serviço assumirá o idioma padrão do projeto que foi selecionado durante a criação do projeto. Consulte Suporte a idiomas para obter uma lista de códigos de idiomas suportados.	`en-us`
`text`	`{DOC-TEXT}`	Documentar a tarefa na qual executar as tarefas.	`Lorem ipsum dolor sit amet`
`tasks`		Lista de tarefas que queremos realizar.	`[]`
`taskName`	`Custom Text Analytics for Health Test`	O nome da tarefa	`Custom Text Analytics for Health Test`
`kind`	`CustomHealthcare`	O projeto ou tipo de tarefa que estamos tentando executar	`CustomHealthcare`
`parameters`		Lista de parâmetros a serem passados para a tarefa.
`project-name`	`{PROJECT-NAME}`	O nome do seu projeto. Esse valor diferencia maiúsculas de minúsculas.	`myProject`
`deployment-name`	`{DEPLOYMENT-NAME}`	O nome da sua implantação. Esse valor diferencia maiúsculas de minúsculas.	`prod`

Key	Valor da amostra	Description
entidades	[]	Uma matriz contendo todas as entidades extraídas.
entityComponentKind	`prebuiltComponent`	Uma variável que indica qual componente retornou a entidade específica. Valores possíveis: `prebuiltComponent`, , `learnedComponentlistComponent`
offset	`0`	Um número que indica o ponto de partida da entidade extraída por indexação sobre os caracteres
length	`10`	Um número que denota o comprimento da entidade extraída em número de caracteres.
texto	`first entity`	O texto que foi extraído para uma entidade específica.
category	`MedicationName`	O nome do tipo ou categoria de entidade correspondente ao texto extraído.
confiançaScore	`0.9`	Um número denotando o nível de certeza do modelo da entidade extraída variando de 0 a 1 com um número maior denotando maior certeza.
assertion	`certainty`	Asserções associadas à entidade extraída. As asserções são suportadas apenas para a Análise de Texto pré-criada para entidades de saúde.
nome	`Ibuprofen`	O nome normalizado para a vinculação de entidade associada à entidade extraída. A vinculação de entidade só é suportada para a Análise de Texto pré-criada para entidades de saúde.
ligações	[]	Uma matriz que contém todos os resultados da vinculação de entidade associada à entidade extraída. A vinculação de entidade só é suportada para a Análise de Texto pré-criada para entidades de saúde.
fonte de dados	`UMLS`	O padrão de referência resultante da ligação da entidade associada à entidade extraída. A vinculação de entidade só é suportada para a Análise de Texto pré-criada para entidades de saúde.
ID	`C0020740`	O código de referência resultante da ligação da entidade associada à entidade extraída pertencente à fonte de dados extraída. A vinculação de entidade só é suportada para a Análise de Texto pré-criada para entidades de saúde.
relações	[]	Matriz contendo todas as relações extraídas. A extração de relacionamento só é suportada para a Análise de Texto pré-criada para entidades de saúde.
relationType	`DosageOfMedication`	A categoria da relação extraída. A extração de relacionamento só é suportada para a Análise de Texto pré-criada para entidades de saúde.
entidades	`"Dosage", "Medication"`	As entidades associadas à relação extraída. A extração de relacionamento só é suportada para a Análise de Texto pré-criada para entidades de saúde.

Partilhar via

Guia de início rápido: análise de texto personalizada para integridade

Pré-requisitos

Criar um novo recurso de linguagem de IA do Azure e uma conta de armazenamento do Azure

Criar um novo recurso a partir do portal do Azure

Carregar dados de amostra para o contêiner de blob

Criar um projeto personalizado de Análise de Texto para integridade

Preparar o modelo

Implementar o modelo

Testar o seu modelo

Clean up resources (Limpar recursos)

Pré-requisitos

Criar um novo recurso de linguagem de IA do Azure e uma conta de armazenamento do Azure

Criar um novo recurso a partir do portal do Azure

Carregar dados de amostra para o contêiner de blob

Obtenha suas chaves de recursos e ponto de extremidade

Criar um projeto personalizado de Análise de Texto para integridade

Acionar trabalho de projeto de importação

Cabeçalhos

Corpo

Obter status de trabalho de importação

URL do Pedido

Cabeçalhos

Preparar o modelo

Iniciar trabalho de formação

Cabeçalhos

Corpo do pedido

Obter status de trabalho de treinamento

URL do Pedido

Cabeçalhos

Organismo de resposta

Implementar o modelo

Iniciar trabalho de implantação

Cabeçalhos

Corpo do pedido

Obter o status do trabalho de implantação

Cabeçalhos

Organismo de resposta

Faça previsões com o seu modelo treinado

Enviar uma tarefa personalizada de Análise de Texto para integridade

Cabeçalhos

Corpo

Response

Obter resultados de tarefas

Cabeçalhos

Organismo de resposta

Clean up resources (Limpar recursos)

Cabeçalhos

Próximos passos

Comentários

Comentários

Recursos adicionais