Rotule seus enunciados no Language Studio

Depois de ter criado um esquema para o seu projeto, você deve adicionar enunciados de treinamento no seu projeto. Os enunciados devem ser semelhantes ao que os usuários usarão ao interagir com o projeto. Ao adicionar um enunciado, você precisará atribuir a qual intenção ele pertence. Depois de acrescentar o enunciado, marque as palavras no enunciado que você quer extrair como entidades.

A marcação de dados é uma etapa importante no ciclo de vida do desenvolvimento; estes dados serão utilizados na próxima etapa no treinamento de seu modelo para que seu modelo possa aprender com os dados marcados. Se você já tiver afirmações marcadas, você pode importá-las diretamente para seu projeto, mas precisa certificar-se de que seus dados seguem o formato de dados aceitos. Confira criar projeto para saber mais sobre como importar dados rotulados para o seu projeto. Os dados rotulados informam ao modelo como interpretar o texto e são usados para treinamento e avaliação.

Pré-requisitos

Antes de rotular dados, você precisa de:

Confira o ciclo de vida de desenvolvimento de projetos para obter mais informações.

Diretrizes de rotulagem de dados

Uma vez construído seu esquema e criado seu projeto, você precisará rotular seus dados. Rotular seus dados é importante para que seu modelo saiba quais palavras e frases serão associadas a intenções e entidades no seu projeto. Você precisará passar um tempo rotulando seus enunciados - inserindo e refinando os dados que serão usados no treinamento de seus modelos.

Ao acrescentar enunciados e rotulá-los, tenha em mente:

  • Os modelos de aprendizagem de máquinas generalizam com base nos exemplos rotulados que você fornece; quanto mais exemplos você fornece, mais pontos de dados o modelo tem que fazer melhores generalizações.

  • A precisão, a consistência e a conclusão dos dados rotulados são fatores fundamentais para determinar o desempenho do modelo.

    • Rotule precisamente: sempre rotule cada intenção ou entidade com seu tipo correto. Inclua apenas o que você quiser que seja classificado ou extraído. Evite dados desnecessários nos seus rótulos.
    • Rotular de maneira consistente: a mesma entidade deve ter o mesmo rótulo em todos os enunciados.
    • Rotule completamente: forneça enunciados variados para cada intenção. Rotule todas as instâncias da entidade em todos os seus enunciados.

Rotular claramente os enunciados

  • Certifique-se de que os conceitos aos quais suas entidades se referem sejam bem definidos e separáveis. Verifique se é possível determinar facilmente as diferenças de forma confiável. Se não conseguir, isso pode ser uma indicação de que o componente de aprendizado também terá dificuldades.

  • Se houver uma semelhança entre as entidades, certifique-se de que existe algum aspecto dos seus dados que forneça um sinal para a diferença entre elas.

    Por exemplo, se você criou um modelo para reservar voos, um usuário poderia utilizar um enunciado como "Eu desejo um voo de Boston para Seattle.". Espera-se que a cidade de origem e a cidade de destino de tais enunciados sejam semelhantes. Um sinal para diferenciar "Cidade de origem" pode ser o fato de ela ser frequentemente precedida pela palavra "de."

  • Certifique-se de rotular todas as instâncias de cada entidade nos seus dados de treinamento e de teste. Uma abordagem é utilizar a função pesquisar para encontrar todas as instâncias de uma palavra ou frase nos seus dados e verificar se elas estão corretamente rotuladas.

  • Rotular dados de teste para as entidades que não têm o componente de aprendizado e também para aquelas que têm. Isso ajudará a garantir que suas métricas de avaliação sejam precisas.

  • Para Projetos multilíngues, adicione enunciados em outros idiomas aumenta o desempenho do modelo nesses idiomas, mas evite duplicar seus dados em todos os idiomas aos quais gostaria de oferecer suporte. Por exemplo, para aprimorar o desempenho de um bot de calendário com os usuários, um desenvolvedor pode adicionar exemplos principalmente em inglês e também alguns em espanhol ou francês. Ele pode adicionar enunciados como:

    • "Set a meeting with Matt and Kevintomorrow at 12 PM." (inglês)
    • "Reply as tentative to the weekly update meeting." (inglês)
    • "Cancelar mi próxima reunión." (espanhol)

Como rotular seus enunciados

Use as etapas a seguir para rotular seus enunciados:

  1. Acesse a página do projeto no Language Studio.

  2. No menu do lado esquerdo, selecione Rotulagem de dados. Nesta página, você pode começar a adicionar seu enunciado e rotulá-lo. Você também pode carregar seu enunciado diretamente clicando em Carregar arquivo de enunciado no menu superior, certifique-se de que segue o formato aceito.

  3. Nas tabelas dinâmicas superiores, é possível alterar o modo de exibição para ser conjunto de treinamento ou conjunto de testes. Saiba mais sobre conjuntos de treinamento e teste e como eles são usados para treinamento e avaliação de modelos.

    Uma captura de tela da página de marcação de enunciados no Language Studio.

    Dica

    Se você planeja usar a Divisão automática do conjunto de teste da divisão de dados de treinamento, adicione todos os seus enunciados ao conjunto de treinamento.

  4. No menu suspenso Selecionar intenção, selecione uma das intenções, o idioma do enunciado (para projetos multilíngues) e o próprio enunciado. Pressione a tecla Enter na caixa de texto do enunciado para adicioná-lo.

  5. Você tem duas opções para rotular entidades em um enunciado:

    Opção Descrição
    Rotular usando um pincel Selecione o ícone de pincel ao lado da entidade no painel direito, depois realce o texto no enunciado que você deseja rotular.
    Rotular usando o menu embutido Realce a palavra que você deseja rotular como uma entidade e um menu será exibido. Selecione a entidade com o qual deseja rotular estas palavras.
  6. No painel direito, em sob o pivô Rótulos dinâmicos, é possível encontrar todos os tipos de entidades em seu projeto e o número de instâncias rotuladas para cada uma.

  7. Na dinamização Distribuição, você pode exibir a distribuição de seus documentos rotulados em conjuntos de treinamento e de teste. Você tem duas opções para a exibição:

    • Total de instâncias por entidade rotulada, em que é possível ver o número de todas as instâncias rotuladas de uma entidade específica.
    • Enunciados únicos para uma entidade rotulada, em que cada afirmação conta se contiver pelo menos uma instância rotulada dessa entidade.
    • Enunciados por intenção, em que é possível exibir o número de enunciados de intenção.

Uma captura de tela mostrando a distribuição de entidade no Language Studio.

Observação

Os componentes de listas e predefinidos não são mostrados na página de rotulagem de dados e todos os rótulos aqui se referem somente ao componente aprendido.

Para remover um rótulo:

  1. No seu enunciado, selecione a entidade da qual você deseja remover um rótulo.
  2. Deslize pelo menu que aparece e selecione Remover rótulo.

Para excluir uma entidade:

  1. Selecione a entidade que deseja editar no painel direito.
  2. Clique nos três pontos ao lado da entidade e selecione a opção que você deseja no menu suspenso.

Sugerir enunciados com o OpenAI do Azure

Na CLU, use o OpenAI do Azure para sugerir enunciados a serem adicionados ao seu projeto usando modelos GPT. Primeiro você precisa obter acesso e criar um recurso no OpenAI do Azure. Em seguida, você precisará criar uma implantação para os modelos GPT. Siga as etapas de pré-requisitos aqui.

Antes de começar, o recurso de sugestão de enunciados só estará disponível se o recurso Idioma estiver nas seguintes regiões:

  • Leste dos EUA
  • Centro-Sul dos Estados Unidos
  • Europa Ocidental

Na página de Rotulagem de Dados:

  1. Clique no botão Sugerir enunciados. Um painel será aberto no lado direito solicitando que você selecione o recurso e a implantação do OpenAI do Azure.
  2. Mediante a seleção de um recurso do OpenAI do Azure, clique em Conectar, o que permite que seu recurso de Linguagem tenha acesso direto ao seu recurso do OpenAI do Azure. Isso atribui ao seu recurso de Linguagem a função de Cognitive Services User do seu recurso do OpenAI do Azure, o que permite que o seu recurso de Linguagem atual tenha acesso ao serviço do OpenAI do Azure. Se a conexão falhar, siga as etapas abaixo para adicionar a função correta ao recurso Azure openAI manualmente.
  3. Após o recurso estar conectado, selecione a implantação. O modelo recomendado para a implantação do OpenAI do Azure é text-davinci-002.
  4. Selecione a intenção para a qual você gostaria de obter sugestões. Certifique-se de que a intenção que você selecionou tenha pelo menos cinco enunciados salvos a serem habilitados para sugestões de enunciado. As sugestões fornecidas pelo OpenAI do Azure são baseadas nos enunciados mais recentes que você adicionou para a intenção em questão.
  5. Selecione Gerar enunciados. Depois de concluídos, os enunciados sugeridos aparecerão com uma linha pontilhada ao seu redor, com a observação Gerados por IA. Essas sugestões precisam ser aceitas ou rejeitadas. Aceitar uma sugestão simplesmente a adiciona ao seu projeto, como se você a tivesse adicionado por conta própria. Rejeitá-la exclui a sugestão completamente. Somente enunciados aceitos farão parte do seu projeto e serão usados para treinamento ou testes. Você pode aceitar ou rejeitar clicando nos botões com sinais de marcação verdes ou vermelhos ao lado de cada enunciado. Você também pode usar os botões Accept all e Reject all na barra de ferramentas.

Uma captura de tela mostrando sugestões de enunciados no Language Studio.

O uso desse recurso envolve uma cobrança do seu recurso OpenAI do Azure para um número de tokens semelhante ao dos enunciados sugeridos gerados. Mais detalhes dos preços do OpenAI do Azure podem ser encontrados aqui.

Adicionar configurações necessárias ao recurso Azure openAI

Se a conexão do recurso de linguagem a um recurso Azure openAI falhar, siga estas etapas:

Habilite o gerenciamento de identidades para o recurso de linguagem usando as seguintes opções:

O recurso de Linguagem deve ter gerenciamento de identidade, para habilitá-lo usando o portal do Azure:

  1. Acesse o recurso de Linguagem
  2. No menu à esquerda, na seção Gerenciamento de Recursos, selecione Identidade
  3. Na guia Atribuído pelo sistema, defina o Status como Ativado

Depois de habilitar a identidade gerenciada, atribua a função Cognitive Services User ao recurso Azure openAI usando a identidade gerenciada do recurso de linguagem.

  1. Entre no portal do Azure e navegue até o recurso do OpenAI do Azure.
  2. Clique na guia Controle de Acesso (IAM) à esquerda.
  3. Selecione Adicionar > Adicionar atribuição de função.
  4. Selecione "Funções de função de trabalho" e clique em Avançar.
  5. Selecione Cognitive Services User na lista de funções e clique em Avançar.
  6. Selecione Atribuir acesso à "Identidade gerenciada" e clique em "Selecionar membros".
  7. Em "Identidade gerenciada" selecione "Idioma".
  8. Pesquise seu recurso e selecione-o. Em seguida, clique no botão Selecionar abaixo e ao lado para concluir o processo.
  9. Examine os detalhes e clique em Examinar + Atribuir.

Várias capturas de tela mostrando as etapas para adicionar a função necessária ao seu recurso Azure OpenAI.

Após alguns minutos, atualize o Language Studio e você poderá se conectar com êxito ao Azure OpenAI.

Próximas etapas