Configurar o comportamento de aprendizagem do Personalizador

O modo Aprendiz proporciona confiança no serviço do Personalizador e nas funcionalidades de machine learning, além de garantir que o serviço receba informações para o aprendizado sem risco de tráfego online.

Importante

O modo Aprendiz (em visualização pública) só está disponível no tipo de preço E0. Confira os preços para obter detalhes. Você pode selecionar a o tipo E0 na criação do recurso ou atualizar para E0 na guia Assinaturas no portal do Azure. Se você estiver em outro tipo e atualizar para E0, os recursos do Personalizador existentes serão automaticamente migrados para o tipo E0.

Configurar o modo Aprendiz

  1. Entre no portal do Azure e no recurso Personalizador.

  2. Na página Configuração, na guia Comportamento de aprendizado, selecione Retornar a ação de linha de base. Aprender como um aprendiz e, em seguida, selecione Salvar.

Captura de tela da configuração do comportamento de aprendizado do modo Aprendiz no portal do Azure

Alterações no aplicativo existente

Seu aplicativo existente não deve alterar a forma como ele seleciona ações a serem exibidas ou como o aplicativo determina o valor (recompensa dessa ação). A única alteração no aplicativo pode ser a ordem das ações enviadas para a API de Classificação do Personalizador. A ação que o aplicativo exibe atualmente é enviada como a primeira ação na lista de ações. A API de Classificação usa essa primeira ação para treinar o modelo do Personalizador.

Configurar o aplicativo para chamar a API de Classificação

Para adicionar o Personalizador ao aplicativo, você precisa chamar as APIs de Classificação e Recompensa.

  1. Adicione a chamada à API de Classificação após o ponto em sua lógica de aplicativo existente onde você determina a lista de ações e os respectivos recursos. A primeira ação na lista de ações precisa ser a ação selecionada pela lógica existente.

  2. Configure o seu código para exibir a ação associada à ID da Ação de Recompensa da resposta da API de Classificação.

Configurar o aplicativo para chamar a API de Recompensa

Observação

As chamadas à API de recompensa não afetam o treinamento enquanto estiverem no modo Aprendiz. O serviço aprende correspondendo à lógica atual do aplicativo ou às ações padrão. No entanto, implementar chamadas de recompensa nesta fase ajuda a garantir uma transição suave para o modo Online mais tarde com uma opção simples no portal do Azure. Além disso, as recompensas serão registradas, permitindo que você analise o desempenho da lógica atual e a quantidade de recompensa que está sendo recebida.

  1. Use a lógica de negócios existente para calcular a recompensa da ação exibida. O valor precisa estar no intervalo de 0 a 1. Envie recompensa ao Personalizador usando a API de Recompensa. O valor de recompensa não é esperado imediatamente e pode ser atrasado por um período de tempo, dependendo de sua lógica de negócios.

  2. Se você não retornar a recompensa dentro do Tempo de espera de recompensa configurado, a recompensa padrão será registrada.

Avaliar o modo Aprendiz

No portal do Azure, na página Avaliações do recurso Personalizador, examine o Desempenho do comportamento de aprendizado atual.

Captura de tela da revisão da avaliação do comportamento de aprendizado do modo Aprendiz no portal do Azure

O modo Aprendiz fornece as seguintes métricas de avaliação:

  • Linha de base – recompensa média: recompensas médias do padrão do aplicativo (linha de base).
  • Personalizador – recompensa média: a média do total de recompensas que o Personalizador pode ter atingido potencialmente.
  • Taxa de conquista de recompensa por meio dos mil eventos mais recentes: taxa de recompensa de Linha de Base e do Personalizador – normalizada sobre os mil eventos mais recentes.

Alternar comportamento para o modo Online

Quando você determina que o Personalizador é treinado com uma média de 75-85% de média móvel, o modelo está pronto para alternar para o modo Online.

Na portal do Azure para o recurso Personalizador, na página Configuração, na guia Comportamento de aprendizado, selecione Retornar a melhor ação e Salvar.

Você não precisa fazer nenhuma alteração às chamadas às APIs de Classificação e de Recompensa.

Próximas etapas