Perguntas frequentes sobre o reconhecimento de entidade nomeada personalizado

Artigo
09/03/2024

Encontre respostas para perguntas frequentes sobre conceitos e cenários relacionados ao NER personalizado na Linguagem de IA do Azure.

Como começar a usar o serviço?

Confira o guia de início rápido para criar rapidamente seu primeiro projeto ou veja como criar projetos para obter informações mais detalhadas.

Quais são os limites de serviço?

Confira o artigo sobre limites de serviço para saber mais.

Quantos arquivos marcados são necessários?

Geralmente, uma gama variada de dados marcados representativos gera resultados melhores, considerando que a marcação é feita de maneira precisa, consistente e completa. Não há um número definido de instâncias marcadas que farão com que todos os modelos tenham um bom desempenho. O desempenho é altamente dependente do esquema e da ambiguidade do esquema. Tipos de entidade ambíguos precisam de mais marcas. O desempenho também depende da qualidade de sua marcação. O número recomendado de instâncias marcadas por entidade é 50.

O treinamento está demorando muito tempo, isso é esperado?

O processo de treinamento pode levar muito tempo. Como uma estimativa aproximada, o tempo de treinamento esperado para arquivos com um tamanho combinado de 12.800.000 caracteres é de seis horas.

Como criar meu modelo personalizado programaticamente?

Observação

No momento, você só pode criar um modelo usando a API REST ou o Language Studio.

Você pode usar as APIs REST para criar seus modelos personalizados. Siga este guia de início rápido para começar a criar um projeto e um modelo por meio de APIs para obter exemplos de como chamar a API de Criação.

Quando estiver pronto para começar a usar seu modelo para fazer previsões, você poderá usar a API REST ou a biblioteca de cliente.

Qual é o processo de CI/CD recomendado?

Você pode treinar vários modelos no mesmo conjuntos de dados no mesmo projeto. Depois de treinar seu modelo com êxito, você poderá exibir o desempenho. Você pode implantar e testar seu modelo no Language Studio. Você pode adicionar ou remover rótulos dos seus dados, treinar um novo modelo e testá-lo também. Confira os limites de serviço para saber mais sobre o número máximo de modelos treinados com o mesmo projeto. Ao treinar um modelo, você pode determinar como o seu conjunto de dados é dividido em conjuntos de treinamento e teste. Também é possível ter seus dados divididos aleatoriamente em conjuntos de treinamento e teste. Não há nenhuma garantia de que a avaliação refletida do modelo está no mesmo conjunto de testes. Por isso, os resultados não são comparáveis. É recomendável desenvolver seu próprio conjunto de testes e usá-lo para avaliar ambos os modelos para que você possa medir a melhoria.

Uma pontuação de modelo baixa ou alta garante um desempenho ruim ou bom na produção?

A avaliação do modelo nem sempre pode ser abrangente. Isso depende destes fatores:

Se o conjunto de testes for muito pequeno, as pontuações boas/ruins não serão representativas do desempenho real do modelo. Além disso, se um tipo de entidade específica estiver ausente ou sub-representada no conjunto de testes, isso afetará o desempenho do modelo.
Diversidade de dados se os seus dados abrangerem apenas alguns cenários/exemplos do texto esperado na produção, seu modelo não será exposto a todos os cenários possíveis e poderá ter um desempenho ruim nos cenários em que não foi treinado.
Representação de dados se o conjunto de dados usado para treinar o modelo não for representativo dos dados que seriam introduzidos ao modelo em produção, o desempenho do modelo será muito afetado.

Confira o artigo seleção de dados e design de esquema para obter mais informações.

Como melhorar o desempenho do modelo?

Exiba a matriz de confusão do modelo. Se você observar que um determinado tipo de entidade geralmente não é previsto corretamente, considere adicionar mais instâncias marcadas para essa classe. Caso você observe que dois tipos de entidade são frequentemente previstos ora como um, ora como o outro, isso significa que o esquema é ambíguo e você deve considerar mesclá-los em um único tipo de entidade para melhorar o desempenho.
Examinar previsões do conjunto de teste. Se um dos tipos de entidade tiver muito mais instâncias marcadas do que as outras, seu modelo poderá tender em direção a esse tipo. Adicione mais dados aos outros tipos de entidade ou remova exemplos do tipo dominante.
Saiba mais sobre a seleção de dados e o design de esquema.
Examine seu conjunto de testes para ver as entidades previstas e marcadas lado a lado e ter uma ideia melhor do desempenho do modelo, a fim de decidir se são necessárias alterações no esquema ou nas marcas.

Por que obtenho resultados diferentes quando treino meu modelo novamente?

Ao treinar seu modelo, você pode determinar se deseja que seus dados sejam divididos aleatoriamente em conjuntos de treinamento e teste. Se fizer isso, não haverá nenhuma garantia de que a avaliação do modelo será realizada no mesmo conjunto de testes. Portanto, os resultados não são comparáveis.
Se você estiver retreinando o mesmo modelo, o conjunto de testes será o mesmo, mas você poderá observar uma pequena alteração nas previsões feitas pelo modelo. Isso ocorre porque o modelo treinado não é robusto o suficiente, o que é um fator de como seus dados são representativos e distintos e da qualidade dos dados marcados.

Como fazer para obter previsões em diferentes idiomas?

Primeiro, você precisa habilitar a opção multilíngue ao criar seu projeto ou pode habilitá-la posteriormente na página de configurações do projeto. Depois de treinar e implantar seu modelo, você poderá consultá-lo em vários idiomas. Você pode obter resultados variados para idiomas diferentes. Para aprimorar a precisão de qualquer idioma, adicione mais instâncias marcadas ao seu projeto nesse idioma a fim de apresentar mais sintaxe do idioma em questão ao modelo treinado.

Treinei meu modelo, mas não consigo testá-lo

Você precisa implantar seu modelo para testá-lo.

Como fazer para usar meu modelo treinado para previsões?

Depois de implantar o modelo, chame a API de previsão, usando a API REST ou as bibliotecas de cliente.

Segurança e privacidade de dados

NER personalizado é um processador de dados para GDPR (Regulamento Geral sobre a Proteção de Dados). Em conformidade com as políticas de GDPR, os usuários do NER personalizado têm controle total para exibir, exportar ou excluir qualquer conteúdo do usuário por meio do Language Studio ou programaticamente usando APIs REST.

Seus dados são armazenados apenas em sua conta de Armazenamento do Azure. O NER personalizado só tem acesso de leitura durante o treinamento.

Como clono meu projeto?

Para clonar seu projeto, você precisará usar a API de exportação a fim de exportar os ativos do projeto e importá-los em um novo projeto. Confira a referência das APIs REST para ambas as operações.

Compartilhar via