Exploração

Artigo
01/19/2024

Importante

A partir de 20 de setembro de 2023, você não poderá criar novos recursos do Personalizador. O serviço de Personalizador será aposentado no dia 1º de outubro de 2026.

Com a exploração, o Personalizer é capaz de entregar continuamente bons resultados, mesmo quando o comportamento do usuário muda.

Quando o Personalizer recebe uma chamada de Classificação, ele retorna um RewardActionID que:

Usa relevância conhecida para corresponder ao comportamento mais provável do usuário com base no modelo de aprendizado de máquina atual.
Usa exploração, que não corresponde à ação que tem a maior probabilidade na classificação.

Atualmente, o Personalizer usa um algoritmo chamado epsilon greedy para explorar.

Escolhendo uma configuração de exploração

Configure a percentagem de tráfego a utilizar para exploração na página Configuração do portal do Azure para o Personalizador. Essa configuração determina a porcentagem de chamadas de Classificação que executam a exploração.

O personalizador determina se deve explorar ou usar a ação mais provável do modelo em cada chamada de classificação. Isso é diferente do comportamento em algumas estruturas A/B que bloqueiam um tratamento em IDs de usuário específicas.

Práticas recomendadas para escolher uma configuração de exploração

Escolher uma configuração de exploração é uma decisão de negócios sobre a proporção de interações do usuário para explorar, a fim de melhorar o modelo.

Uma definição de zero anulará muitos dos benefícios do Personalizador. Com essa configuração, o Personalizer não usa interações do usuário para descobrir melhores interações do usuário. Isso leva à estagnação do modelo, deriva e, finalmente, menor desempenho.

Uma configuração muito alta negará os benefícios de aprender com o comportamento do usuário. Defini-lo como 100% implica uma randomização constante, e qualquer comportamento aprendido dos usuários não influenciaria o resultado.

É importante não alterar o comportamento do aplicativo com base no fato de você ver se o Personalizer está explorando ou usando a melhor ação aprendida. Isso levaria a vieses de aprendizagem que, em última análise, diminuiriam o desempenho potencial.

Próximos passos

Aprendizagem por reforço

Share via

Exploração

Escolhendo uma configuração de exploração

Práticas recomendadas para escolher uma configuração de exploração

Próximos passos

Recursos adicionais