Configurar o comportamento de aprendizagem do Personalizador
Importante
A partir de 20 de setembro de 2023, não será mais possível criar novos recursos do Personalizador. O serviço Personalizador está sendo desativado no dia 1º de outubro de 2026.
O modo Aprendiz proporciona confiança no serviço do Personalizador e nas funcionalidades de machine learning, além de garantir que o serviço receba informações para o aprendizado sem risco de tráfego online.
Configurar o modo Aprendiz
Entre no portal do Azure e no recurso Personalizador.
Na página Configuração, na guia Configurações do modelo, selecione Modo Aprendiz e Salvar.
Alterações no aplicativo existente
Seu aplicativo existente não deve alterar a forma como ele seleciona ações a serem exibidas ou como o aplicativo determina o valor (recompensa dessa ação). A única alteração no aplicativo pode ser a ordem das ações enviadas para a API de Classificação do Personalizador. A ação que o aplicativo exibe atualmente é enviada como a primeira ação na lista de ações. A API de Classificação usa essa primeira ação para treinar o modelo do Personalizador.
Configurar o aplicativo para chamar a API de Classificação
Para adicionar o Personalizador ao aplicativo, você precisa chamar as APIs de Classificação e Recompensa.
Adicione a chamada à API de Classificação após o ponto em sua lógica de aplicativo existente onde você determina a lista de ações e os respectivos recursos. A primeira ação na lista de ações precisa ser a ação selecionada pela lógica existente.
Configure o seu código para exibir a ação associada à ID da Ação de Recompensa da resposta da API de Classificação.
Configurar o aplicativo para chamar a API de Recompensa
Observação
As chamadas à API de recompensa não afetam o treinamento enquanto estiverem no modo Aprendiz. O serviço aprende correspondendo à lógica atual do aplicativo ou às ações padrão. No entanto, implementar chamadas de recompensa nesta fase ajuda a garantir uma transição suave para o modo Online mais tarde com uma opção simples no portal do Azure. Além disso, as recompensas serão registradas, permitindo que você analise o desempenho da lógica atual e a quantidade de recompensa que está sendo recebida.
Use a lógica de negócios existente para calcular a recompensa da ação exibida. O valor precisa estar no intervalo de 0 a 1. Envie recompensa ao Personalizador usando a API de Recompensa. O valor de recompensa não é esperado imediatamente e pode ser atrasado por um período de tempo, dependendo de sua lógica de negócios.
Se você não retornar a recompensa dentro do Tempo de espera de recompensa configurado, a recompensa padrão será registrada.
Avaliar o modo Aprendiz
No portal do Azure, na página Monitoramento do recurso Personalizador, examine o Desempenho correspondente.
O modo Aprendiz fornece as seguintes métricas de avaliação:
- Linha de base – recompensa média: recompensas médias do padrão do aplicativo (linha de base).
- Personalizador – recompensa média: a média do total de recompensas que o Personalizador pode ter atingido potencialmente.
- Taxa de conquista de recompensa por meio dos mil eventos mais recentes: taxa de recompensa de Linha de Base e do Personalizador – normalizada sobre os mil eventos mais recentes.
Alternar comportamento para o modo Online
Quando você determina que o Personalizador é treinado com uma média de 75-85% de média móvel, o modelo está pronto para alternar para o modo Online.
No portal do Azure do recurso Personalizador, na página Configuração, na guia Configurações do modelo , selecione *Modo online e Salvar.
Você não precisa fazer nenhuma alteração às chamadas às APIs de Classificação e de Recompensa.