Compartilhar via


Terminologia do Personalizador

Importante

A partir de 20 de setembro de 2023, não será mais possível criar novos recursos do Personalizador. O serviço Personalizador está sendo desativado no dia 1º de outubro de 2026.

O Personalizador usa a terminologia do aprendizado por reforço. Estes termos são usados no portal do Azure e nas APIs.

Terminologia conceitual

  • Loop de aprendizado: você cria um recurso do Personalizador, chamado de loop de aprendizado, para cada parte do aplicativo que pode se beneficiar da personalização. Caso você tenha mais de uma experiência para personalização, crie um loop para cada uma.

  • Modelo: um modelo do Personalizador captura todos os dados aprendidos sobre o comportamento do usuário, obtendo dados de treinamento da combinação dos argumentos enviados para as chamadas de Classificação e Recompensa e com um comportamento de treinamento determinado pela Política de Aprendizado.

  • Modo online: o comportamento de aprendizado padrão do Personalizador, em que o loop de aprendizado usa o machine learning para criar o modelo que prevê a ação principal para o conteúdo.

  • Modo Aprendiz: um comportamento de aprendizado que ajuda a iniciar a quente um modelo do Personalizador para treinamento sem afetar os resultados e as ações dos aplicativos.

Comportamento de aprendizado:

  • Modo online: retorna a melhor ação. O modelo responderá às chamadas de Classificação com a melhor ação e usará as chamadas de Recompensa para aprender e aprimorar as seleções ao longo do tempo.
  • Modo Aprendiz : aprende como um aprendiz. O modelo aprenderá observando o comportamento do sistema existente. As chamadas de Classificação sempre retornarão a ação padrão do aplicativo (linha de base).

Configuração do Personalizador

O Personalizador é configurado no portal do Azure.

  • Recompensas: configure os valores padrão para o tempo de espera da recompensa, a recompensa padrão e a política de agregação da recompensa.

  • Exploração: configure o percentual de chamadas de Classificação a serem usadas para exploração

  • Frequência de atualização do modelo: a frequência na qual o modelo é treinado novamente.

  • Retenção de dados: a quantidade de dias de dados a serem armazenados. Isso pode afetar as avaliações offline, que são usadas para aprimorar o loop de aprendizado.

Usar as APIs de Classificação e Recompensa

  • Classificação: considerando as ações com recursos e os recursos de contexto, use a exploração para retornar a ação principal (item de conteúdo).

    • Ações: as ações são os itens de conteúdo, como produtos ou promoções, disponíveis para escolha. O Personalizador escolhe a ação principal (ID da ação de recompensa retornada) a ser mostrada aos usuários por meio da API de Classificação.

    • Contexto: para fornecer uma classificação mais precisa, forneça informações sobre o contexto, por exemplo:

      • Seu usuário.
      • O dispositivo que ele está usando.
      • A hora atual.
      • Outros dados sobre a situação atual.
      • Dados históricos sobre o usuário ou o contexto.

      Seu aplicativo específico pode ter informações de contexto diferentes.

    • Recursos : uma unidade de informação sobre um item de conteúdo ou um contexto de usuário. Lembre-se de usar apenas os recursos agregados. Não use horários específicos, identificações de usuário ou outros dados não agregados como recursos.

      • Um recurso de ação são metadados sobre o conteúdo.
      • Um recurso de contexto são metadados sobre o contexto no qual o conteúdo é apresentado.
  • Exploração: o serviço de Personalizador faz uma exploração quando, em vez de retornar a melhor ação, escolhe uma ação diferente para o usuário. O serviço Personalizador evita desvios e estagnação e pode se adaptar ao comportamento contínuo do usuário com a exploração.

  • Melhor ação aprendida: o serviço do Personalizador usa o modelo atual para decidir a melhor ação com base em dados anteriores.

  • Duração do Experimento: o tempo que o serviço de Personalizador aguarda uma recompensa, a partir do momento em que a chamada de Classificação ocorreu para esse evento.

  • Eventos Inativos: um evento inativo é aquele em que você chamou a Classificação, mas não tem certeza se o usuário verá o resultado, devido às decisões do aplicativo cliente. Os eventos inativos permitem criar e armazenar resultados de personalização e decidir como descartá-los posteriormente sem afetar o modelo de machine learning.

  • Recompensa: uma medida de como o usuário respondeu à ID da ação de recompensa retornada da API de Classificação, como uma pontuação entre 0 e 1. O valor de 0 a 1 é definido pela lógica de negócios, com base em como a opção ajudou a atingir as metas de negócios de personalização. O loop de aprendizado não armazena essa recompensa como um histórico de usuário individual.

Avaliações

Avaliações offline

  • Avaliação: uma avaliação offline determina a melhor política de aprendizado para o loop com base nos dados do seu aplicativo.

  • Política de Aprendizado: a forma como o Personalizador treina um modelo em cada evento será determinada por alguns parâmetros que afetam o funcionamento do algoritmo de machine learning. Um novo loop de aprendizado começa com uma política de aprendizado padrão, que pode produzir um desempenho moderado. Ao executar Avaliações, o Personalizador cria políticas de aprendizado especificamente otimizadas para os casos de uso do loop. Ele terá um desempenho significativamente melhor com políticas otimizadas para cada loop específico, gerado durante a Avaliação. A política de aprendizado é chamada configurações de aprendizado nas Configurações de modelo e aprendizado do recurso do Personalizador no portal do Azure.

Avaliações do modo Aprendiz

O modo Aprendiz fornece as seguintes métricas de avaliação:

  • Linha de base – recompensa média: recompensas médias do padrão do aplicativo (linha de base).
  • Personalizador – recompensa média: a média do total de recompensas que o Personalizador pode ter atingido potencialmente.
  • Recompensa média sem interrupção: taxa de linha de base e recompensa do Personalizador – normalizada em relação aos mil eventos mais recentes.

Próximas etapas