Configurar o comportamento de aprendizagem do Personalizador

Artigo
01/19/2024

Importante

A partir de 20 de setembro de 2023, não será mais possível criar novos recursos do Personalizador. O serviço Personalizador está sendo desativado no dia 1º de outubro de 2026.

O modo Aprendiz proporciona confiança no serviço do Personalizador e nas funcionalidades de machine learning, além de garantir que o serviço receba informações para o aprendizado sem risco de tráfego online.

Configurar o modo Aprendiz

Entre no portal do Azure e no recurso Personalizador.
Na página Configuração, na guia Configurações do modelo, selecione Modo Aprendiz e Salvar.

Screenshot of configuring apprentice mode learning behavior in Azure portal

Alterações no aplicativo existente

Seu aplicativo existente não deve alterar a forma como ele seleciona ações a serem exibidas ou como o aplicativo determina o valor (recompensa dessa ação). A única alteração no aplicativo pode ser a ordem das ações enviadas para a API de Classificação do Personalizador. A ação que o aplicativo exibe atualmente é enviada como a primeira ação na lista de ações. A API de Classificação usa essa primeira ação para treinar o modelo do Personalizador.

Configurar o aplicativo para chamar a API de Classificação

Para adicionar o Personalizador ao aplicativo, você precisa chamar as APIs de Classificação e Recompensa.

Adicione a chamada à API de Classificação após o ponto em sua lógica de aplicativo existente onde você determina a lista de ações e os respectivos recursos. A primeira ação na lista de ações precisa ser a ação selecionada pela lógica existente.
Configure o seu código para exibir a ação associada à ID da Ação de Recompensa da resposta da API de Classificação.

Configurar o aplicativo para chamar a API de Recompensa

Observação

As chamadas à API de recompensa não afetam o treinamento enquanto estiverem no modo Aprendiz. O serviço aprende correspondendo à lógica atual do aplicativo ou às ações padrão. No entanto, implementar chamadas de recompensa nesta fase ajuda a garantir uma transição suave para o modo Online mais tarde com uma opção simples no portal do Azure. Além disso, as recompensas serão registradas, permitindo que você analise o desempenho da lógica atual e a quantidade de recompensa que está sendo recebida.

Use a lógica de negócios existente para calcular a recompensa da ação exibida. O valor precisa estar no intervalo de 0 a 1. Envie recompensa ao Personalizador usando a API de Recompensa. O valor de recompensa não é esperado imediatamente e pode ser atrasado por um período de tempo, dependendo de sua lógica de negócios.
Se você não retornar a recompensa dentro do Tempo de espera de recompensa configurado, a recompensa padrão será registrada.

Avaliar o modo Aprendiz

No portal do Azure, na página Monitoramento do recurso Personalizador, examine o Desempenho correspondente.

Screenshot of reviewing evaluation of apprentice mode learning behavior in Azure portal

O modo Aprendiz fornece as seguintes métricas de avaliação:

Linha de base – recompensa média: recompensas médias do padrão do aplicativo (linha de base).
Personalizador – recompensa média: a média do total de recompensas que o Personalizador pode ter atingido potencialmente.
Taxa de conquista de recompensa por meio dos mil eventos mais recentes: taxa de recompensa de Linha de Base e do Personalizador – normalizada sobre os mil eventos mais recentes.

Alternar comportamento para o modo Online

Quando você determina que o Personalizador é treinado com uma média de 75-85% de média móvel, o modelo está pronto para alternar para o modo Online.

No portal do Azure do recurso Personalizador, na página Configuração, na guia Configurações do modelo , selecione *Modo online e Salvar.

Você não precisa fazer nenhuma alteração às chamadas às APIs de Classificação e de Recompensa.

Próximas etapas

Gerenciar configurações de modelo e de aprendizado