Como preparar dados e definir um esquema de classificação de texto

Artigo
12/19/2023

Para criar um modelo de classificação de texto personalizado, precisará de dados de qualidade para o preparar. Este artigo aborda a forma como deve selecionar e preparar os seus dados, juntamente com a definição de um esquema. Definir o esquema é o primeiro passo no ciclo de vida de desenvolvimento do projeto e define as classes nas quais precisa que o seu modelo classifique o seu texto no runtime.

Estrutura do esquema

O esquema define as classes nas quais precisa que o seu modelo classifique o seu texto no runtime.

Reveja e identifique: reveja os documentos no seu conjunto de dados para se familiarizar com a estrutura e o conteúdo e, em seguida, identifique como pretende classificar os seus dados.

Por exemplo, se estiver a classificar pedidos de suporte, poderá precisar das seguintes classes: problema de início de sessão, problema de hardware, problema de conectividade e novo pedido de equipamento.
Evite ambiguidade nas classes: surge ambiguidade quando as classes que especificar partilham um significado semelhante entre si. Quanto mais ambíguo for o seu esquema, mais dados etiquetados poderá ter de diferenciar entre diferentes classes.

Por exemplo, se estiver a classificar receitas alimentares, estas poderão ser semelhantes em certa medida. Para diferenciar entre a receita de sobremesa e a receita de prato principal, poderá ter de etiquetar mais exemplos para ajudar o seu modelo a distinguir entre as duas classes. Evitar ambiguidade poupa tempo e produz melhores resultados.
Dados fora do âmbito: ao utilizar o modelo em produção, considere adicionar uma classe fora do âmbito ao esquema se esperar documentos que não pertençam a nenhuma das suas classes. Em seguida, adicione alguns documentos ao conjunto de dados para serem etiquetados como fora do âmbito. O modelo pode aprender a reconhecer documentos irrelevantes e a prever as respetivas etiquetas em conformidade.

Seleção de dados

A qualidade dos dados com que prepara o modelo afeta bastante o desempenho do modelo.

Utilize dados da vida real que refletem o espaço problemático do seu domínio para preparar eficazmente o seu modelo. Pode utilizar dados sintéticos para acelerar o processo de preparação do modelo inicial, mas provavelmente será diferente dos seus dados reais e tornará o seu modelo menos eficaz quando utilizado.
Balancee a distribuição de dados o máximo possível sem se desviar para longe da distribuição na vida real.
Utilize dados diversos sempre que possível para evitar o sobreajuste do modelo. Uma menor diversidade nos dados de preparação pode levar à aprendizagem de modelos de correlações espúrias que podem não existir nos dados da vida real.
Evite documentos duplicados nos seus dados. Os dados duplicados têm um efeito negativo no processo de preparação, nas métricas dos modelos e no desempenho do modelo.
Considere de onde vêm os seus dados. Se estiver a recolher dados de uma pessoa, departamento ou parte do seu cenário, é provável que não tenha diversidade que possa ser importante para o seu modelo saber mais.

Nota

Se os seus documentos estiverem em vários idiomas, selecione a opção de vários idiomas durante a criação do projeto e defina a opção de idioma para o idioma da maioria dos seus documentos.

Preparação de dados

Como pré-requisito para criar um projeto de classificação de texto personalizado, os dados de preparação têm de ser carregados para um contentor de blobs na sua conta de armazenamento. Pode criar e carregar documentos de preparação a partir do Azure diretamente ou através da ferramenta Explorador de Armazenamento do Azure. A utilização da ferramenta Explorador de Armazenamento do Azure permite-lhe carregar mais dados rapidamente.

Só pode utilizar .txt. documentos para texto personalizado. Se os seus dados estiverem noutro formato, pode utilizar o comando de análise CLUtils para alterar o formato de ficheiro.

Pode carregar um conjunto de dados anotado ou carregar um conjunto de dados não anotado e etiquetar os seus dados no Language Studio.

Conjunto de testes

Ao definir o conjunto de testes, certifique-se de que inclui documentos de exemplo que não estão presentes no conjunto de preparação. Definir o conjunto de testes é um passo importante para calcular o desempenho do modelo. Além disso, certifique-se de que o conjunto de testes inclui documentos que representam todas as classes utilizadas no projeto.

Passos seguintes

Se ainda não o fez, crie um projeto de classificação de texto personalizado. Se for a primeira vez que utiliza a classificação de texto personalizada, considere seguir o início rápido para criar um projeto de exemplo. Também pode ver os requisitos do projeto para obter mais detalhes sobre o que precisa para criar um projeto.

Partilhar via