Rotular dados de texto para treinar seu modelo

Antes de treinar seu modelo, você precisa rotular seus documentos com as classes nas quais deseja categorizá-los. A rotulagem de dados é uma etapa crucial no ciclo de vida do desenvolvimento. Nesta etapa, você pode criar as classes nas quais deseja categorizar seus dados e rotular seus documentos com essas classes. Esses dados serão usados na próxima etapa ao treinar seu modelo para que o modelo possa aprender com os dados rotulados. Se você já tiver rotulado os dados, poderá importá-los diretamente para seu projeto, mas precisa garantir que seus dados sigam o formato de dados aceito.

Antes de criar um modelo de classificação de texto personalizado, primeiro você precisa ter dados rotulados. Se os dados ainda não estão rotulados, você pode rotulá-los no Language Studio. Os dados rotulados informam ao modelo como interpretar o texto e são usados para treinamento e avaliação.

Pré-requisitos

Antes de rotular dados, você precisa:

Confira o ciclo de vida de desenvolvimento de projetos para obter mais informações.

Diretrizes de rotulagem de dados

Depois de preparar seus dados, projetar seu esquema e criar seu projeto, você precisará rotular seus dados. É importante rotular seus dados para que seu modelo saiba quais documentos serão associados às classes necessárias. Quando seus dados são rotulados no Language Studio (ou os dados rotulados são importados), esses rótulos serão armazenados no arquivo JSON no contêiner de armazenamento que você conectou a este projeto.

Ao rotular seus dados, tenha em mente:

  • Em geral, mais dados rotulados levam a melhores resultados, desde que os dados sejam rotulados com precisão.

  • Não há um número fixo de rótulos que possa garantir que seu modelo terá o melhor desempenho. Modele o desempenho sobre a ambiguidade possível em seu esquema e a qualidade dos dados rotulados. No entanto, recomendamos 50 documentos rotulados por classe.

Rotular seus dados.

Use as etapas a seguir para rotular seus dados:

  1. Acesse a página do projeto no Language Studio.

  2. No menu do lado esquerdo, selecione Rotulagem de dados. Você pode encontrar uma lista de todos os documentos no contêiner de armazenamento. Consulte a imagem abaixo.

    Dica

    Você pode usar os filtros no menu superior para exibir os arquivos sem rótulo para que você possa começar a rotulá-los. Você também pode usar os filtros para exibir os documentos rotulados com uma classe específica.

  3. Altere para uma única exibição de arquivo do lado esquerdo no menu superior ou selecione um arquivo específico para iniciar a rotulagem. Você pode encontrar uma lista de todos os .txt arquivos disponíveis em seus projetos à esquerda. Você pode usar o botão Voltar e Avançar na parte inferior da página para navegar pelos documentos.

    Observação

    Se você habilitar vários idiomas para seu projeto, encontrará um menu suspenso Idioma no menu superior, que permite selecionar o idioma de cada documento.

  4. No painel direito, Adicione classe ao seu projeto para que você possa começar a rotular seus dados com eles.

  5. Comece a rotular seus arquivos.

    Classificação de vários rótulos: seu arquivo pode ser rotulado com várias classes e você pode fazer isso marcando todas as caixas de seleção aplicáveis ao lado das classes com as quais você deseja marcar esse arquivo.

    Uma captura de tela mostrando a página de marca de classificação de vários rótulos.

    Você também pode usar o recurso de rotulagem automática para garantir uma rotulagem completa.

  6. No painel direito sob a dinamização Rótulos, você pode encontrar todas as classes em seu projeto e a contagem de instâncias rotuladas para cada um.

  7. Na seção inferior do painel direito, você pode adicionar o arquivo atual que você está exibindo ao conjunto de treinamento ou ao conjunto de testes. Por padrão, todos os documentos são adicionados ao seu conjunto de treinamento. Saiba mais sobre os conjuntos de treinamento e teste e como eles são usados para treinamento e avaliação de modelos.

    Dica

    Se você estiver planejando usar a divisão Automática de dados, use a opção padrão para atribuir todos os documentos ao seu conjunto de treinamento.

  8. Na dinamização Distribuição, você pode exibir a distribuição de seus documentos rotulados em conjuntos de treinamento e de teste. Você tem duas opções para a exibição:

    • Total de instâncias em que você pode exibir a contagem de todas as instâncias rotuladas de uma classe específica.
    • documentos com pelo menos um rótulo, em que cada documento é contado se contiver pelo menos uma instância rotulada desta classe.
  9. Ao rotular, suas alterações serão sincronizadas periodicamente, se elas ainda não foram salvas, você encontrará um aviso na parte superior da página. Se você quiser salvar manualmente, clique no botão Salvar rótulos na parte inferior da página.

Remover rótulos

Se você quiser remover um rótulo, desmarque o botão ao lado da classe.

Excluir ou classes

Para excluir uma classe, clique no ícone excluir ao lado da classe que você deseja remover. A exclusão de uma classe removerá todas as instâncias rotuladas do conjunto de dados.

Próximas etapas

Depois de ter rotulado seus dados, você pode começar a treinar um modelo que aprenderá com base em seus dados.