Etiquetar os seus dados no Language Studio

Antes de preparar o modelo, tem de etiquetar os seus documentos com as entidades personalizadas que pretende extrair. A etiquetagem de dados é um passo crucial no ciclo de vida de desenvolvimento. Neste passo, pode criar os tipos de entidade que pretende extrair dos seus dados e etiquetar estas entidades nos seus documentos. Estes dados serão utilizados no próximo passo ao preparar o modelo para que o modelo possa aprender com os dados etiquetados. Se já tiver etiquetado dados, pode importá-los diretamente para o seu projeto, mas tem de se certificar de que os seus dados seguem o formato de dados aceite. Veja Criar projeto para saber mais sobre a importação de dados etiquetados para o seu projeto.

Antes de criar um modelo NER personalizado, tem de ter os dados etiquetados primeiro. Se os seus dados ainda não estiverem etiquetados, pode rotulá-lo no Language Studio. Os dados etiquetados informam o modelo sobre como interpretar texto e são utilizados para preparação e avaliação.

Pré-requisitos

Antes de poder etiquetar os seus dados, precisa de:

  • Um projeto criado com êxito com uma conta de armazenamento de blobs do Azure configurada
  • Dados de texto que foram carregados para a sua conta de armazenamento.

Veja o ciclo de vida de desenvolvimento do projeto para obter mais informações.

Diretrizes de etiquetagem de dados

Depois de preparar os seus dados, estruturar o esquema e criar o projeto, terá de etiquetar os seus dados. A etiquetagem dos seus dados é importante para que o modelo saiba que palavras serão associadas aos tipos de entidade que precisa de extrair. Quando etiqueta os seus dados no Language Studio (ou importa dados etiquetados), estas etiquetas serão armazenadas no documento JSON no contentor de armazenamento que ligou a este projeto.

À medida que etiqueta os seus dados, tenha em atenção:

  • Em geral, os dados mais etiquetados levam a melhores resultados, desde que os dados sejam etiquetados com precisão.

  • A precisão, consistência e conclusão dos dados etiquetados são fatores fundamentais para determinar o desempenho do modelo.

    • Etiquetar com precisão: etiquetar cada entidade para o tipo certo sempre. Inclua apenas o que pretende extrair, evite dados desnecessários nas suas etiquetas.
    • Etiqueta de forma consistente: a mesma entidade deve ter a mesma etiqueta em todos os documentos.
    • Etiquetar completamente: etiquetar todas as instâncias da entidade em todos os seus documentos. Pode utilizar a funcionalidade de etiquetagem automática para garantir a etiquetagem completa.

    Nota

    Não existe um número fixo de etiquetas que possa garantir que o seu modelo terá o melhor desempenho. O desempenho do modelo depende de uma possível ambiguidade no esquema e da qualidade dos dados etiquetados. No entanto, recomendamos que tenha cerca de 50 instâncias etiquetadas por tipo de entidade.

Etiquetar os seus dados

Utilize os seguintes passos para etiquetar os seus dados:

  1. Aceda à página do projeto no Language Studio.

  2. No menu esquerdo, selecione Etiquetagem de dados. Pode encontrar uma lista de todos os documentos no contentor de armazenamento.

    Dica

    Pode utilizar os filtros no menu superior para ver os documentos sem etiquetas para que possa começar a rotulá-los. Também pode utilizar os filtros para ver os documentos etiquetados com um tipo de entidade específico.

  3. Altere para uma única vista de documento a partir do lado esquerdo no menu superior ou selecione um documento específico para começar a etiquetar. Pode encontrar uma lista de todos os .txt documentos disponíveis no seu projeto à esquerda. Pode utilizar o botão Anterior e Seguinte a partir da parte inferior da página para navegar pelos seus documentos.

    Nota

    Se tiver ativado vários idiomas para o seu projeto, encontrará um menu pendente Idioma no menu superior, que lhe permite selecionar o idioma de cada documento.

  4. No painel do lado direito, adicione o tipo de entidade ao projeto para que possa começar a etiquetar os dados com os mesmos.

  5. Tem duas opções para etiquetar o seu documento:

    Opção Descrição
    Etiqueta com um pincel Selecione o ícone de pincel junto a um tipo de entidade no painel direito e, em seguida, realce o texto no documento que pretende anotar com este tipo de entidade.
    Etiquetar com um menu Realce a palavra que pretende etiquetar como uma entidade e será apresentado um menu. Selecione o tipo de entidade que pretende atribuir a esta entidade.

    A captura de ecrã abaixo mostra a etiquetagem com um pincel.

    Captura de ecrã a mostrar as opções de etiquetagem oferecidas no NER Personalizado.

  6. No painel do lado direito, no pivô Etiquetas , pode encontrar todos os tipos de entidades no projeto e a contagem de instâncias etiquetadas por cada uma.

  7. Na secção inferior do painel do lado direito, pode adicionar o documento atual que está a ver ao conjunto de preparação ou ao conjunto de testes. Por predefinição, todos os documentos são adicionados ao seu conjunto de preparação. Saiba mais sobre os conjuntos de preparação e teste e como são utilizados para preparação e avaliação de modelos.

    Dica

    Se estiver a planear utilizar a Divisão automática de dados, utilize a opção predefinida de atribuir todos os documentos ao seu conjunto de preparação.

  8. No pivô Distribuição , pode ver a distribuição entre conjuntos de preparação e teste. Tem duas opções para ver:

    • Total de instâncias onde pode ver a contagem de todas as instâncias etiquetadas de um tipo de entidade específico.
    • documentos com, pelo menos, uma etiqueta em que cada documento é contado se contiver, pelo menos, uma instância etiquetada desta entidade.
  9. Quando estiver a etiquetar, as suas alterações serão sincronizadas periodicamente, se ainda não tiverem sido guardadas, irá encontrar um aviso na parte superior da página. Se quiser guardar manualmente, selecione o botão Guardar etiquetas na parte inferior da página.

Remover etiquetas

Para remover uma etiqueta

  1. Selecione a entidade da qual pretende remover uma etiqueta.
  2. Percorra o menu apresentado e selecione Remover etiqueta.

Eliminar entidades

Para eliminar uma entidade, selecione o ícone eliminar junto à entidade que pretende remover. Eliminar uma entidade removerá todas as instâncias etiquetadas do conjunto de dados.

Passos seguintes

Depois de etiquetar os seus dados, pode começar a preparar um modelo que irá aprender com base nos seus dados.