Otimização Automática do Personalizador (versão prévia)

Artigo
01/19/2024

Importante

A partir de 20 de setembro de 2023, você não poderá criar novos recursos do Personalizador. O serviço Personalizador está sendo desativado no dia 1º de outubro de 2026.

Introdução

A otimização automática do Personalizador poupa o esforço manual de manutenção de um loop do Personalizador no seu melhor desempenho de aprendizado de máquina, pesquisando automaticamente Configurações de Aprendizado aprimoradas usadas para treinar e aplicar seus modelos. O Personalizador tem critérios rigorosos de aplicação de novas Configurações de Aprendizado, para assegurar que seja improvável que as melhorias gerem perda de recompensas.

A Otimização Automática do Personalizador está em Versão Prévia Pública e seus recursos, abordagens e processos serão alterados com base nos comentários dos usuários.

Quando usar a Otimização Automática

Na maioria dos casos, a melhor opção é manter a Otimização Automática ativada. A Otimização Automática é ativada por padrão em novos loops do Personalizador.

A Otimização Automática pode ajudar nas seguintes situações:

Você cria aplicativos usados por vários locatários, cada um deles com loops próprios do Personalizador; por exemplo, se você hospedar vários sites de comércio eletrônico. A Otimização Automática permite evitar o esforço manual necessário ao ajuste das configurações de aprendizado a um grande número de loops do Personalizador.
Você implantou o Personalizador, confirmou seu bom funcionamento, recompensas satisfatórias e tem certeza de que não há bugs ou problemas em seus recursos.

Observação

A Otimização Automática substitui periodicamente as Configurações de Aprendizado do Personalizador. Se o seu caso de uso ou setor exigir auditoria e arquivamento de modelos e configurações, ou se você precisar de backups de configurações anteriores, poderá usar a API do Personalizador para recuperar as Configurações de Aprendizado ou baixá-las por meio do portal do Azure.

Como habilitar e desabilitar a Otimização Automática

Para Habilitar a Otimização Automática, use o botão de alternância na folha "Configurações de Modelo e Aprendizado", no portal do Azure.

Você também pode ativar a Otimização Automática usando a API /configurations/service do Personalizador.

Para desabilitar a Otimização Automática, desative a alternância.

Relatórios da Otimização Automática

Na folha Configurações de Modelo e Aprendizado, você vê o histórico de execuções da otimização automática e a ação adotada em cada uma.

A tabela mostra:

Quando ocorreu uma operação de otimização automática,
Qual janela de dados foi incluída,
Qual foi o desempenho das recompensas online, na linha de base e nas Configurações de Aprendizado mais encontradas,
Ações adotadas: se as Configurações de Aprendizado foram atualizadas ou não.

O desempenho de recompensas em diferentes configurações de aprendizado em cada linha de histórico de otimização automática é mostrado em números absolutos e como percentuais em relação ao desempenho da linha de base.

Exemplo: se a recompensa média da linha de base for estimada em 0,20 e o comportamento do Personalizador online estiver atingindo 0,30, elas serão mostradas como 100% e 150%, respectivamente. Se a otimização automática tiver encontrado configurações de aprendizado capazes de alcançar uma recompensa média de 0,40, ela será mostrada como 200% (0,40 é 200% de 0,20). Supondo-se que as margens de confiança permitam, as novas configurações seriam aplicadas e orientariam o Personalizador como as configurações Online até a próxima execução.

É mantido um histórico de até 24 versões anteriores da Otimização Automática para sua análise. Você pode buscar mais detalhes sobre essas Avaliações Offline e relatórios para cada uma delas. Além disso, os relatórios contêm todas as Configurações de Aprendizado contidas nesse histórico, que você pode localizar e baixar ou aplicar.

Como ele funciona

O Personalizador treina constantemente os modelos de IA usados com base em recompensas. Esse treinamento é feito seguindo algumas Configurações de Aprendizado, que contêm hiperparâmetros e outros valores usados no processo de treinamento. Essas configurações de aprendizado podem ser "ajustadas" à sua instância específica do Personalizador.

O Personalizador também pode executar Avaliações Offline. As Avaliações Offline pesquisam dados transmitidos e podem produzir uma estimativa estatística da recompensa média que os diferentes algoritmos e modelos do Personalizador poderiam ter obtido. Durante esse processo, o Personalizador também busca melhores Configurações de Aprendizado, estimando seu desempenho (quantas recompensas teriam sido recebidas) nesse último período.

Frequência da Otimização Automática

A Otimização Automática é executada periodicamente, com base nos dados de execuções anteriores

Se o seu aplicativo tiver enviado ao Personalizador mais 20 MB de dados, aproximadamente, nas últimas duas semanas, ele usará as duas últimas semanas de dados.
Se o seu aplicativo tiver enviado um volume inferior a esse, o Personalizador adicionará dados de dias anteriores até que haja dados suficientes para otimizar ou que ele atinja os dados mais antigos armazenados (até o número de dias de Retenção de Dados).

Os dias e horas exatos de execução da Otimização Automática são determinados pelo serviço do Personalizador e são flutuantes.

Critérios para atualizar configurações de aprendizado

O Personalizador usa essas estimativas de recompensa para decidir se as Configurações de Aprendizado atuais devem ser alteradas. Cada estimativa é uma curva de distribuição, com limites de confiança superiores e inferiores de 95%. O Personalizador só aplicará novas Configurações de Aprendizado se:

Elas mostrarem recompensas médias mais altas no período de avaliação E
Seu limite inferior do intervalo de confiança de 95%, for superior ao limite inferior do intervalo de confiança de 95% das Configurações de Aprendizado online. Esses critérios para maximizar a melhoria de recompensas e, ao mesmo tempo, tentar eliminar a probabilidade de perda de recompensas futuras, são gerenciados pelo Personalizador com base na pesquisa de Algoritmos seldonianos e na segurança da IA.

Limitações da Otimização Automática

A Otimização Automática do Personalizador baseia-se na avaliação de um período passado para estimar o desempenho futuro. É possível que, devido a fatores externos, seu aplicativo e seus usuários, essas estimativas e previsões sobre modelos do Personalizador feitos no passado não se reflitam do futuro.

A Visualização da Otimização Automática não está disponível para loops do Personalizador que tenham habilitado a funcionalidade de Visualização da API na personalização de Vários Slots.

Compartilhar via