Configurar o loop de aprendizagem do Personalizer
Importante
A partir de 20 de setembro de 2023, você não poderá criar novos recursos do Personalizador. O serviço de Personalizador será aposentado no dia 1º de outubro de 2026.
A configuração do serviço inclui como o serviço trata as recompensas, com que frequência o serviço explora, com que frequência o modelo é requalificado e quantos dados são armazenados.
Configure o loop de aprendizagem na página Configuração , no portal do Azure para esse recurso do Personalizador.
Planejando alterações de configuração
Como algumas alterações de configuração redefinem seu modelo, você deve planejar suas alterações de configuração.
Se planeia utilizar o modo Aprendiz, certifique-se de que revê a configuração do Personalizador antes de mudar para o modo Aprendiz.
Configurações que incluem a redefinição do modelo
As ações a seguir desencadeiam um retreinamento do modelo usando dados disponíveis até os últimos 2 dias.
- Recompensa
- Exploração
Para limpar todos os seus dados, use a página Modelo e configurações de aprendizagem.
Configurar recompensas para o ciclo de feedback
Configure o serviço para o uso de recompensas do seu ciclo de aprendizagem. As alterações nos valores a seguir redefinirão o modelo atual do Personalizador e o treinarão novamente com os últimos 2 dias de dados.
Value | Propósito |
---|---|
Tempo de espera de recompensa | Define o período de tempo durante o qual o Personalizador irá recolher valores de recompensa para uma chamada de Classificação, a partir do momento em que a chamada de Classificação acontece. Esse valor é definido perguntando: "Quanto tempo o Personalizador deve esperar por chamadas de recompensa?" Qualquer recompensa que chegue após esta janela será registada, mas não utilizada para aprendizagem. |
Recompensa padrão | Se nenhuma chamada de recompensa for recebida pelo Personalizador durante a janela de Tempo de Espera de Recompensa associada a uma chamada de Classificação, o Personalizador atribuirá a Recompensa Padrão. Por padrão, e na maioria dos cenários, a Recompensa Padrão é zero (0). |
Agregação de recompensas | Se várias recompensas forem recebidas pela mesma chamada da API de classificação, este método de agregação será usado: soma ou antes. A primeira escolhe a primeira pontuação recebida e descarta o restante. Isso é útil se você quiser uma recompensa única entre chamadas possivelmente duplicadas. |
Depois de alterar esses valores, selecione Salvar.
Configurar a exploração para permitir que o ciclo de aprendizagem se adapte
A personalização é capaz de descobrir novos padrões e se adaptar às mudanças de comportamento do usuário ao longo do tempo, explorando alternativas em vez de usar a previsão do modelo treinado. O valor de Exploração determina qual a percentagem de chamadas de Rank que são atendidas com a exploração.
As alterações nesse valor redefinirão o modelo atual do Personalizador e o treinarão novamente com os últimos 2 dias de dados.
Depois de alterar esse valor, selecione Salvar.
Configurar a frequência de atualização do modelo para o treinamento do modelo
A frequência de atualização do modelo define a frequência com que o modelo é treinado.
Definição de frequência | Propósito |
---|---|
1 minuto | As frequências de atualização de um minuto são úteis ao depurar o código de um aplicativo usando o Personalizer, fazer demonstrações ou testar interativamente aspetos de aprendizado de máquina. |
15 minutos | Altas frequências de atualização de modelo são úteis para situações em que você deseja acompanhar de perto as alterações nos comportamentos do usuário. Os exemplos incluem sites que são executados em notícias ao vivo, conteúdo viral ou lances de produtos ao vivo. Você pode usar uma frequência de 15 minutos nesses cenários. |
Uma hora | Para a maioria dos casos de uso, uma frequência de atualização mais baixa é eficaz. |
Depois de alterar esse valor, selecione Salvar.
Retenção de dados
O período de retenção de dados define quantos dias o Personalizer mantém registros de dados. Logs de dados anteriores são necessários para realizar avaliações off-line, que são usadas para medir a eficácia do Personalizador e otimizar a Política de Aprendizagem.
Depois de alterar esse valor, selecione Salvar.