Partilhar via


Etiquetar os seus dados com o Language Studio

A etiquetagem de dados é um passo crucial no ciclo de vida de desenvolvimento. Neste passo, vai etiquetar os seus documentos com as novas entidades que definiu no esquema para preencher os respetivos componentes aprendidos. Estes dados serão utilizados no próximo passo ao preparar o modelo para que o modelo possa aprender com os dados etiquetados para saber quais as entidades a extrair. Se já tiver etiquetado dados, pode importá-los diretamente para o seu projeto, mas tem de se certificar de que os seus dados seguem o formato de dados aceite. Veja Criar projeto para saber mais sobre a importação de dados etiquetados para o seu projeto. Se os seus dados ainda não estiverem etiquetados, pode rotulá-lo no Language Studio.

Pré-requisitos

Antes de poder etiquetar os seus dados, precisa de:

  • Um projeto criado com êxito com uma conta de armazenamento de blobs do Azure configurada
  • Dados de texto que foram carregados para a sua conta de armazenamento.

Veja o ciclo de vida de desenvolvimento do projeto para obter mais informações.

Diretrizes de etiquetagem de dados

Depois de preparar os seus dados, estruturar o esquema e criar o projeto, terá de etiquetar os seus dados. A etiquetagem dos seus dados é importante para que o modelo saiba que palavras serão associadas aos tipos de entidade que precisa de extrair. Quando etiqueta os seus dados no Language Studio (ou importa dados etiquetados), estas etiquetas são armazenadas no documento JSON no contentor de armazenamento que ligou a este projeto.

À medida que etiqueta os seus dados, tenha em atenção:

  • Não pode adicionar etiquetas para Análise de Texto para entidades de estado de funcionamento, uma vez que são entidades pré-concebidas pré-concebidas. Só pode adicionar etiquetas a novas categorias de entidades que definiu durante a definição de esquema.

Se quiser melhorar a recolha de uma entidade pré-criada, pode alargá-la ao adicionar um componente de lista enquanto define o esquema.

  • Em geral, os dados mais etiquetados conduzem a melhores resultados, desde que os dados sejam etiquetados com precisão.

  • A precisão, consistência e conclusão dos dados etiquetados são fatores fundamentais para determinar o desempenho do modelo.

    • Etiquetar com precisão: etiquetar cada entidade para o tipo certo sempre. Inclua apenas o que pretende extrair, evite dados desnecessários nas suas etiquetas.
    • Etiqueta de forma consistente: a mesma entidade deve ter a mesma etiqueta em todos os documentos.
    • Etiqueta completamente: etiquetar todas as instâncias da entidade em todos os seus documentos.

    Nota

    Não existe um número fixo de etiquetas que possa garantir que o seu modelo terá o melhor desempenho. O desempenho do modelo depende de uma possível ambiguidade no esquema e da qualidade dos seus dados etiquetados. No entanto, recomendamos que tenha cerca de 50 instâncias etiquetadas por tipo de entidade.

Etiquetar os seus dados

Utilize os seguintes passos para etiquetar os seus dados:

  1. Aceda à página do projeto no Language Studio.

  2. No menu esquerdo, selecione Etiquetagem de dados. Pode encontrar uma lista de todos os documentos no contentor de armazenamento.

    Dica

    Pode utilizar os filtros no menu superior para ver os documentos não etiquetados para que possa começar a rotulá-los. Também pode utilizar os filtros para ver os documentos que estão etiquetados com um tipo de entidade específico.

  3. Altere para uma única vista de documento a partir do lado esquerdo no menu superior ou selecione um documento específico para iniciar a etiquetagem. Pode encontrar uma lista de todos os .txt documentos disponíveis no seu projeto à esquerda. Pode utilizar o botão Anterior e Seguinte a partir da parte inferior da página para navegar pelos seus documentos.

    Nota

    Se tiver ativado vários idiomas para o seu projeto, encontrará uma lista pendente Idioma no menu superior, que lhe permite selecionar o idioma de cada documento. O hebraico não é suportado com projetos multilinngues.

  4. No painel do lado direito, pode utilizar o botão Adicionar tipo de entidade para adicionar entidades adicionais ao projeto que perdeu durante a definição de esquema.

  5. Tem duas opções para etiquetar o seu documento:

    Opção Descrição
    Etiqueta com um pincel Selecione o ícone de pincel junto a um tipo de entidade no painel direito e, em seguida, realce o texto no documento que pretende anotar com este tipo de entidade.
    Etiquetar com um menu Realce a palavra que pretende etiquetar como uma entidade e será apresentado um menu. Selecione o tipo de entidade que pretende atribuir a esta entidade.

    A captura de ecrã abaixo mostra a etiquetagem com um pincel.

    Uma captura de ecrã a mostrar as opções de etiquetagem oferecidas no NER Personalizado.

  6. No painel do lado direito, no pivô Etiquetas , pode encontrar todos os tipos de entidade no projeto e a contagem de instâncias etiquetadas por cada um. As entidades pré-criadas serão apresentadas para referência, mas não poderá etiquetar estas entidades pré-criadas, uma vez que estão pré-concebidas.

  7. Na secção inferior do painel do lado direito, pode adicionar o documento atual que está a ver ao conjunto de preparação ou ao conjunto de testes. Por predefinição, todos os documentos são adicionados ao conjunto de preparação. Veja conjuntos de preparação e teste para obter informações sobre como são utilizados para a preparação e avaliação de modelos.

    Dica

    Se estiver a planear utilizar a divisão automática de dados, utilize a opção predefinida de atribuir todos os documentos ao seu conjunto de preparação.

  8. No pivô Distribuição , pode ver a distribuição entre conjuntos de preparação e teste. Tem duas opções para ver:

    • Total de instâncias em que pode ver a contagem de todas as instâncias etiquetadas de um tipo de entidade específico.
    • Documentos com, pelo menos, uma etiqueta em que cada documento é contado se contiver, pelo menos, uma instância etiquetada desta entidade.
  9. Quando estiver a etiquetar, as alterações são sincronizadas periodicamente, se ainda não tiverem sido guardadas, encontrará um aviso na parte superior da sua página. Se quiser guardar manualmente, selecione o botão Guardar etiquetas na parte inferior da página.

Remover etiquetas

Para remover uma etiqueta

  1. Selecione a entidade da qual pretende remover uma etiqueta.
  2. Percorra o menu apresentado e selecione Remover etiqueta.

Eliminar entidades

Não pode eliminar nenhuma das Análise de Texto para entidades pré-concebidas para o estado de funcionamento porque têm um componente pré-criado. Só tem permissão para eliminar categorias de entidades recentemente definidas. Para eliminar uma entidade, selecione o ícone eliminar junto à entidade que pretende remover. Eliminar uma entidade remove todas as instâncias etiquetadas do conjunto de dados.

Passos seguintes

Depois de etiquetar os seus dados, pode começar a preparar um modelo que irá aprender com base nos seus dados.