Compartilhar via


Como preparar dados para análise de sentimento personalizada

Para criar um modelo de análise de sentimento personalizada, você precisará de dados de qualidade para treiná-lo. Este artigo aborda como selecionar e preparar seus dados, além de definir um esquema. A definição do esquema é a primeira etapa do ciclo de vida de desenvolvimento do projeto e define as classes nas quais você precisa que o modelo classifique o texto em runtime.

Seleção de dados

A qualidade dos dados com os quais você treina seu modelo afeta muito o desempenho do modelo.

  • Use dados da vida real que reflitam o espaço de problema do seu domínio para treinar efetivamente seu modelo. É possível usar dados sintéticos para acelerar o processo inicial de treinamento do modelo, mas eles provavelmente serão diferentes dos dados da vida real e tornarão seu modelo menos eficaz quando usado.

  • Equilibre a distribuição de dados o máximo possível sem se desviar da distribuição na vida real.

  • Use dados diversos sempre que possível para evitar sobreajuste do modelo. Menos diversidade nos dados de treinamento pode levar ao aprendizado de modelo de correlações espúrias que podem não existir nos dados da vida real.

  • Evite documentos duplicados em seus dados. Os dados duplicados têm um efeito negativo no processo de treinamento, nas métricas do modelo e no desempenho do modelo.

  • Considere de onde vêm seus dados. Caso se estiver coletando dados de uma pessoa, departamento ou parte de seu cenário, provavelmente não há diversidade que possa ser importante para seu modelo saber mais.

Observação

Se os documentos estiverem em vários idiomas, selecione a opção de vários idiomas durante a criação do projeto e defina a opção de idioma como o idioma da maioria dos seus documentos.

Preparação de dados

Como pré-requisito para a criação de um projeto de análise de sentimento personalizado, os dados de treinamento precisam ser carregados em um contêiner de blob na conta de armazenamento. É possível criar e carregar documentos de treinamento do Azure diretamente ou usando a ferramenta Gerenciador de Armazenamento do Azure. Usar a ferramenta Gerenciador de Armazenamento do Azure permite carregar mais dados rapidamente.

É possível apenas usar .txt. documentos para texto personalizado. Se os dados estão em outro formato, você pode usar o comando de análise CLUtils para alterar o formato do arquivo.

Conjunto de testes

Ao definir o conjunto de testes, certifique-se de incluir documentos de exemplo que não estão presentes no conjunto de treinamento. Definir o conjunto de testes é uma etapa importante para calcular o desempenho do modelo. Além disso, verifique se o conjunto de testes inclui documentos que representam todas as classes usadas em seu projeto.

Próximas etapas

Caso ainda não tenha feito isso, crie um projeto de análise de sentimento personalizada. Se for a primeira vez que você usa a análise de sentimento personalizada, considere seguir o início rápido para criar um projeto de exemplo. Você também pode ver os requisitos do projeto para obter mais detalhes sobre o que é necessário para criar um projeto.