Etiquetar dados de texto para preparar o modelo

Antes de preparar o modelo, tem de etiquetar os seus documentos com as classes nas quais pretende categorizá-los. A etiquetagem de dados é um passo crucial no ciclo de vida do desenvolvimento; neste passo, pode criar as classes nas quais pretende categorizar os seus dados e etiquetar os seus documentos com estas classes. Estes dados serão utilizados no próximo passo ao preparar o modelo para que o modelo possa aprender com os dados etiquetados. Se já tiver etiquetado dados, pode importá-los diretamente para o seu projeto, mas tem de se certificar de que os seus dados seguem o formato de dados aceite.

Antes de criar um modelo de classificação de texto personalizado, tem de ter os dados etiquetados primeiro. Se os seus dados ainda não estiverem etiquetados, pode rotulá-lo no Language Studio. Os dados etiquetados informam o modelo sobre como interpretar texto e são utilizados para preparação e avaliação.

Pré-requisitos

Antes de poder etiquetar dados, precisa de:

Veja o ciclo de vida de desenvolvimento do projeto para obter mais informações.

Diretrizes de etiquetagem de dados

Depois de preparar os seus dados, estruturar o esquema e criar o projeto, terá de etiquetar os seus dados. A etiquetagem dos seus dados é importante para que o modelo saiba que documentos serão associados às classes de que precisa. Quando etiqueta os seus dados no Language Studio (ou importa dados etiquetados), estas etiquetas serão armazenadas no ficheiro JSON no contentor de armazenamento que ligou a este projeto.

À medida que etiqueta os seus dados, tenha em atenção:

  • Em geral, os dados mais etiquetados conduzem a melhores resultados, desde que os dados sejam etiquetados com precisão.

  • Não existe um número fixo de etiquetas que possa garantir que o seu modelo terá o melhor desempenho. Modele o desempenho de possíveis ambiguidades no esquema e a qualidade dos seus dados etiquetados. No entanto, recomendamos 50 documentos etiquetados por classe.

Etiquetar os seus dados

Utilize os seguintes passos para etiquetar os seus dados:

  1. Aceda à página do projeto no Language Studio.

  2. No menu esquerdo, selecione Etiquetagem de dados. Pode encontrar uma lista de todos os documentos no contentor de armazenamento. Veja a imagem abaixo.

    Dica

    Pode utilizar os filtros no menu superior para ver os ficheiros não etiquetados para que possa começar a rotulá-los. Também pode utilizar os filtros para ver os documentos que estão etiquetados com uma classe específica.

  3. Altere para uma única vista de ficheiro a partir do lado esquerdo no menu superior ou selecione um ficheiro específico para iniciar a etiquetagem. Pode encontrar uma lista de todos os .txt ficheiros disponíveis nos seus projetos à esquerda. Pode utilizar o botão Anterior e Seguinte a partir da parte inferior da página para navegar pelos seus documentos.

    Nota

    Se tiver ativado vários idiomas para o seu projeto, encontrará uma lista pendente Idioma no menu superior, que lhe permite selecionar o idioma de cada documento.

  4. No painel do lado direito, adicione classe ao projeto para que possa começar a etiquetar os seus dados com os mesmos.

  5. Comece a etiquetar os seus ficheiros.

    Classificação de várias etiquetas: o seu ficheiro pode ser etiquetado com várias classes. Pode fazê-lo ao selecionar todas as caixas de verificação aplicáveis junto às classes com as quais pretende etiquetar este documento.

    Uma captura de ecrã a mostrar a página de etiquetas de classificação de múltiplas etiquetas.

    Também pode utilizar a funcionalidade de etiquetagem automática para garantir a etiquetagem completa.

  6. No painel do lado direito, no pivô Etiquetas , pode encontrar todas as classes no seu projeto e a contagem de instâncias etiquetadas por cada uma.

  7. Na secção inferior do painel do lado direito, pode adicionar o ficheiro atual que está a ver ao conjunto de preparação ou ao conjunto de testes. Por predefinição, todos os documentos são adicionados ao conjunto de preparação. Saiba mais sobre os conjuntos de preparação e teste e como são utilizados para a preparação e avaliação de modelos.

    Dica

    Se estiver a planear utilizar a divisão automática de dados, utilize a opção predefinida de atribuir todos os documentos ao seu conjunto de preparação.

  8. No pivô Distribuição , pode ver a distribuição entre conjuntos de preparação e teste. Tem duas opções para ver:

    • Total de instâncias em que pode ver a contagem de todas as instâncias etiquetadas de uma classe específica.
    • documentos com, pelo menos, uma etiqueta em que cada documento é contado se contiver, pelo menos, uma instância etiquetada desta classe.
  9. Enquanto estiver a etiquetar, as suas alterações serão sincronizadas periodicamente, se ainda não tiverem sido guardadas, encontrará um aviso na parte superior da sua página. Se quiser guardar manualmente, selecione o botão Guardar etiquetas na parte inferior da página.

Remover etiquetas

Se quiser remover uma etiqueta, desmarque o botão junto à classe.

Eliminar ou classes

Para eliminar uma classe, selecione o ícone eliminar junto à classe que pretende remover. Eliminar uma classe removerá todas as instâncias etiquetadas do conjunto de dados.

Passos seguintes

Depois de etiquetar os seus dados, pode começar a preparar um modelo que irá aprender com base nos seus dados.