Como preparar dados e definir um esquema de classificação de texto

Para criar um modelo de classificação de texto personalizado, precisará de dados de qualidade para o preparar. Este artigo aborda a forma como deve selecionar e preparar os seus dados, juntamente com a definição de um esquema. Definir o esquema é o primeiro passo no ciclo de vida de desenvolvimento do projeto e define as classes nas quais precisa que o seu modelo classifique o seu texto no runtime.

Estrutura do esquema

O esquema define as classes nas quais precisa que o seu modelo classifique o seu texto no runtime.

  • Reveja e identifique: reveja os documentos no seu conjunto de dados para se familiarizar com a estrutura e o conteúdo e, em seguida, identifique como pretende classificar os seus dados.

    Por exemplo, se estiver a classificar pedidos de suporte, poderá precisar das seguintes classes: problema de início de sessão, problema de hardware, problema de conectividade e novo pedido de equipamento.

  • Evite ambiguidade nas classes: surge ambiguidade quando as classes que especificar partilham um significado semelhante entre si. Quanto mais ambíguo for o seu esquema, mais dados etiquetados poderá ter de diferenciar entre diferentes classes.

    Por exemplo, se estiver a classificar receitas alimentares, estas poderão ser semelhantes em certa medida. Para diferenciar entre a receita de sobremesa e a receita de prato principal, poderá ter de etiquetar mais exemplos para ajudar o seu modelo a distinguir entre as duas classes. Evitar ambiguidade poupa tempo e produz melhores resultados.

  • Dados fora do âmbito: ao utilizar o modelo em produção, considere adicionar uma classe fora do âmbito ao esquema se esperar documentos que não pertençam a nenhuma das suas classes. Em seguida, adicione alguns documentos ao conjunto de dados para serem etiquetados como fora do âmbito. O modelo pode aprender a reconhecer documentos irrelevantes e a prever as respetivas etiquetas em conformidade.

Seleção de dados

A qualidade dos dados com que prepara o modelo afeta bastante o desempenho do modelo.

  • Utilize dados da vida real que refletem o espaço problemático do seu domínio para preparar eficazmente o seu modelo. Pode utilizar dados sintéticos para acelerar o processo de preparação do modelo inicial, mas provavelmente será diferente dos seus dados reais e tornará o seu modelo menos eficaz quando utilizado.

  • Balancee a distribuição de dados o máximo possível sem se desviar para longe da distribuição na vida real.

  • Utilize dados diversos sempre que possível para evitar o sobreajuste do modelo. Uma menor diversidade nos dados de preparação pode levar à aprendizagem de modelos de correlações espúrias que podem não existir nos dados da vida real.

  • Evite documentos duplicados nos seus dados. Os dados duplicados têm um efeito negativo no processo de preparação, nas métricas dos modelos e no desempenho do modelo.

  • Considere de onde vêm os seus dados. Se estiver a recolher dados de uma pessoa, departamento ou parte do seu cenário, é provável que não tenha diversidade que possa ser importante para o seu modelo saber mais.

Nota

Se os seus documentos estiverem em vários idiomas, selecione a opção de vários idiomas durante a criação do projeto e defina a opção de idioma para o idioma da maioria dos seus documentos.

Preparação de dados

Como pré-requisito para criar um projeto de classificação de texto personalizado, os dados de preparação têm de ser carregados para um contentor de blobs na sua conta de armazenamento. Pode criar e carregar documentos de preparação a partir do Azure diretamente ou através da ferramenta Explorador de Armazenamento do Azure. A utilização da ferramenta Explorador de Armazenamento do Azure permite-lhe carregar mais dados rapidamente.

Só pode utilizar .txt. documentos para texto personalizado. Se os seus dados estiverem noutro formato, pode utilizar o comando de análise CLUtils para alterar o formato de ficheiro.

Pode carregar um conjunto de dados anotado ou carregar um conjunto de dados não anotado e etiquetar os seus dados no Language Studio.

Conjunto de testes

Ao definir o conjunto de testes, certifique-se de que inclui documentos de exemplo que não estão presentes no conjunto de preparação. Definir o conjunto de testes é um passo importante para calcular o desempenho do modelo. Além disso, certifique-se de que o conjunto de testes inclui documentos que representam todas as classes utilizadas no projeto.

Passos seguintes

Se ainda não o fez, crie um projeto de classificação de texto personalizado. Se for a primeira vez que utiliza a classificação de texto personalizada, considere seguir o início rápido para criar um projeto de exemplo. Também pode ver os requisitos do projeto para obter mais detalhes sobre o que precisa para criar um projeto.