Compartilhar via


Política e configurações de aprendizado

Importante

A partir de 20 de setembro de 2023, não será mais possível criar novos recursos do Personalizador. O serviço Personalizador será desativado no dia 1º de outubro de 2026.

As configurações de aprendizado determinam os hiperparâmetros do treinamento de modelos. Dois modelos dos mesmos dados que são treinados em diferentes configurações de aprendizado podem ficar diferentes.

A política e as configurações de aprendizado são definidas no recurso Personalizador do portal do Azure.

Importar e exportar as políticas de aprendizado

É possível importar e exportar arquivos de política de aprendizado no portal do Azure. Use esse método para salvar as políticas existentes, testá-las, substituí-las e arquivá-las como artefatos no controle do código-fonte para referência e auditoria futuras.

Veja como importar e exportar uma política de aprendizado no portal do Azure para o recurso Personalizador.

Entender as configurações da política de aprendizado

As configurações da política de aprendizado não devem ser alteradas. Somente mude as configurações se você entender como elas afetam o Personalizador. Sem esse conhecimento, você pode causar problemas, inclusive a invalidação de modelos do Personalizador.

O Personalizador usa o vowpalwabbit para treinar e pontuar os eventos. Confira a documentação do vowpalwabbit sobre como editar as configurações de aprendizado usando o vowpalwabbit. Quando você tiver os argumentos corretos da linha de comando, salve o comando em um arquivo com o formato a seguir (substitua o valor da propriedade arguments pelo comando desejado) e carregue o arquivo para importar as configurações de aprendizado no painel Configurações de modelo e aprendizado do portal do Azure para o recurso Personalizador.

O arquivo .json a seguir é um exemplo de uma política de aprendizado.

{
  "name": "new learning settings",
  "arguments": " --cb_explore_adf --epsilon 0.2 --power_t 0 -l 0.001 --cb_type mtr -q ::"
}

Comparar políticas de aprendizado

É possível comparar como seria o desempenho de diferentes políticas de aprendizado em relação a dados passados nos logs do Personalizador, realizando avaliações offline.

Carregue as suas próprias políticas de aprendizado para compará-las com a política de aprendizado atual.

Otimizar as políticas de aprendizado

O Personalizador pode criar uma política de aprendizado otimizada em uma avaliação offline. Uma política de aprendizado otimizada que tenha melhores recompensas em uma avaliação offline vai gerar melhores resultados quando usada online no Personalizador.

Depois de otimizar uma política de aprendizado, você pode aplicá-la diretamente no Personalizador para que ela substitua imediatamente a política atual. Também é possível salvar a política otimizada para oferecer uma avaliação adicional e, posteriormente, decidir se você deseja descartá-la, salvá-la ou aplicá-la.

Próximas etapas