Termos e definições usados na classificação de textos personalizada

Artigo
12/19/2023

Use este artigo para saber mais sobre algumas das definições e termos que você pode encontrar ao usar a classificação de textos personalizada.

Classe

Uma classe é uma categoria definida pelo usuário que indica a classificação geral do texto. Os desenvolvedores rotulam os dados com as classes, antes de passá-los para o modelo para treinamento.

Medida f

A medida f é uma função de Precisão e Recall. Ela é necessária quando você busca um equilíbrio entre precisão e recall.

Modelar

Um modelo é um objeto treinado para realizar determinada tarefa, neste caso, as tarefas de classificação de textos personalizada. Para treinar os modelos, forneça a eles dados rotulados para que baseiem o aprendizado e usem posteriormente nas tarefas de classificação.

Treinamento de modelo é o processo de ensinar ao modelo como classificar documentos com base nos dados rotulados.
A avaliação do modelo é o processo que acontece logo após o treinamento para saber o desempenho do modelo.
Implantação é o processo de atribuir seu modelo a uma implantação para disponibilizá-lo para uso por meio da API de previsão.

Precisão

Mede a precisão/exatidão do modelo. É a taxa entre os positivos identificados corretamente (verdadeiros positivos) e todos os positivos identificados. A métrica de precisão revela quantas das classes previstas estão rotuladas corretamente.

Project

Um projeto é uma área de trabalho para a criação de modelos de ML personalizados com base em seus dados. Seu projeto só pode ser acessado por você e por outras pessoas que têm acesso ao recurso do Azure que está sendo usado. Como um pré-requisito para criar um projeto de classificação de textos personalizada, você precisa conectar seu recurso a uma conta de armazenamento com seu conjunto de dados ao criar um projeto. Seu projeto inclui automaticamente todos os arquivos .txt disponíveis no seu contêiner.

No seu projeto, você pode fazer o seguinte:

Rotular seus dados: o processo que rotula os dados para que, ao treinar seu modelo, ele aprenda o que você deseja extrair.
Criar e treinar seu modelo: a etapa principal do projeto, na qual o modelo começa a aprender com os dados rotulados.
Exibir detalhes de avaliação do modelo: examine o desempenho do modelo para decidir se há espaço para melhoria ou se você está satisfeito com os resultados.
Implantação: depois de examinar o desempenho do modelo e decidir que ele é adequado para ser usado em seu ambiente, você precisa atribuí-lo a uma implantação para consultá-lo. Atribuir o modelo a uma implantação disponibiliza-o para uso por meio da API de previsão.
Modelo de teste: depois de implantar o modelo, você pode usar essa operação no Language Studio para experimentar a implantação e ver como ela funcionaria na produção.

Tipos de projeto

A classificação de textos personalizada dá suporte a dois tipos de projetos

Classificação de rótulo único: é possível atribuir uma classe a cada documento no conjunto de dados. Por exemplo, um roteiro de filme só pode ser classificado como "Romance" ou "Comedy".
Classificação de diversos rótulos: é possível atribuir diversas classes a cada documento no conjunto de dados. Por exemplo, um roteiro de filme pode ser classificado como "Comédia" ou "Romance" e "Comédia".

Chamar de volta

Mede a capacidade do modelo de prever classes positivas reais. É a taxa entre os verdadeiros positivos previstos e o que foi realmente marcado. A métrica de recall revelam quantas das classes previstas estão corretas.