Como funciona o Personalizador

Importante

A partir de 20 de setembro de 2023, você não poderá criar novos recursos do Personalizador. O serviço de Personalizador será aposentado no dia 1º de outubro de 2026.

O recurso Personalizador, seu ciclo de aprendizagem, usa o aprendizado de máquina para criar o modelo que prevê a ação principal para seu conteúdo. O modelo é treinado exclusivamente em seus dados que você enviou para ele com as chamadas de Rank e Reward . Cada loop é completamente independente um do outro.

As APIs de classificação e recompensa impactam o modelo

Você envia ações com recursos e recursos de contexto para a API de classificação. A API de classificação decide usar:

  • Exploit: o modelo atual para decidir a melhor ação com base em dados passados.
  • Explorar: selecione uma ação diferente em vez da ação principal. Você configura essa porcentagem para seu recurso Personalizador no portal do Azure.

Você determina a pontuação de recompensa e envia essa pontuação para a API de recompensa. A API de recompensa :

  • Coleta dados para treinar o modelo, registrando os recursos e pontuações de recompensa de cada chamada de classificação.
  • Usa esses dados para atualizar o modelo com base na configuração especificada na Política de Aprendizagem.

O seu sistema chamando o Personalizador

A imagem a seguir mostra o fluxo arquitetônico de chamar as chamadas de Classificação e Recompensa:

alt text

  1. Você envia ações com recursos e recursos de contexto para a API de classificação.

    • O personalizador decide se deseja explorar o modelo atual ou explorar novas opções para o modelo.
    • O resultado da classificação é enviado para o EventHub.
  2. A classificação superior é devolvida ao seu sistema como ID de ação de recompensa. Seu sistema apresenta esse conteúdo e determina uma pontuação de recompensa com base em suas próprias regras de negócios.

  3. Seu sistema retorna a pontuação de recompensa para o ciclo de aprendizagem.

    • Quando o Personalizador recebe a recompensa, ela é enviada para o EventHub.
    • A classificação e a recompensa estão correlacionadas.
    • O modelo de IA é atualizado com base nos resultados da correlação.
    • O mecanismo de inferência é atualizado com o novo modelo.

O personalizador retreina o seu modelo

O Personalizer retreina seu modelo com base na configuração de atualização de frequência do modelo em seu recurso Personalizer no portal do Azure.

O Personalizer usa todos os dados atualmente retidos, com base na configuração de retenção de dados em número de dias em seu recurso do Personalizador no portal do Azure.

Pesquisa por trás do Personalizer

O Personalizer baseia-se em ciência e investigação de ponta na área da Aprendizagem por Reforço, incluindo artigos, atividades de investigação e áreas de exploração em curso na Microsoft Research.

Próximos passos

Saiba mais sobre os principais cenários do Personalizer