Características e limitações do Personalizador

Artigo
01/19/2024

Importante

A partir de 20 de setembro de 2023, você não poderá criar novos recursos do Personalizador. O serviço Personalizador está sendo desativado no dia 1º de outubro de 2026.

O Personalizador de IA do Azure pode funcionar em muitos cenários. Para entender onde você pode aplicar o Personalizador, verifique se os requisitos do seu cenário atendem às expectativas de que o Personalizador funcione. Para entender se o Personalizador deve ser usado e como integrá-lo aos aplicativos, consulte Casos de Uso para Personalizador. Você encontrará critérios e diretrizes sobre como escolher casos de uso, criar recursos e funções de recompensa para os usos do Personalizador.

Antes de ler este artigo, é útil entender algumas informações em segundo plano sobre como o Personalizador funciona.

Selecionar recursos para o Personalizador

A personalização de conteúdo depende se você tem informações úteis sobre o conteúdo e o usuário. Para alguns aplicativos e setores, algumas informações do usuário podem ser consideradas direta ou indiretamente discriminatórias e potencialmente ilícitas. Consulte as diretrizes de integração e uso responsável do Personalizador para avaliar os recursos a serem usados com o Personalizador.

Como calcular recompensas para o Personalizador

O Personalizador aprende a melhorar escolhas de ações com base na pontuação de recompensa fornecida pela lógica de negócios do seu aplicativo. Uma pontuação de recompensa bem construída agirá como um substituto de curto prazo para uma meta de negócios vinculada à missão de uma organização. Por exemplo, recompensar com base em cliques fará o Personalizador buscar cliques às custas de todo o restante, mesmo se o que foi clicado estiver distraindo o usuário ou não estiver vinculado a um resultado de negócios. Por outro lado, um site de notícias pode querer definir recompensas vinculadas a algo mais significativo do que cliques, como "O usuário gastou tempo suficiente para ler o conteúdo?" ou "O usuário clicou em artigos ou referências relevantes?" Com o Personalizador, é fácil vincular as métricas de perto às recompensas. No entanto, você precisará ter cuidado para não confundir o envolvimento do usuário de curto prazo com os resultados desejados.

Consequências não intencionais de pontuações de recompensa

Mesmo que criadas com as melhores intenções, as pontuações de recompensa podem criar consequências inesperadas ou resultados não intencionais devido à forma como o Personalizador classifica o conteúdo.

Considere os seguintes exemplos:

Recompensar a personalização de conteúdo de vídeo com base no percentual da duração do vídeo assistida provavelmente tenderia a classificar vídeos menores melhor que vídeos maiores.
Recompensar compartilhamentos em redes sociais, sem análise de sentimento de como o conteúdo é compartilhado ou o conteúdo em si, pode levar à classificação de conteúdo ofensivo, não moderado ou provocativo, o que tende a incitar muita “participação”, mas agrega pouco valor. Esse tipo de conteúdo tende a incitar muito engajamento, mas muitas vezes é prejudicial.
Recompensar a ação em elementos da interface do usuário que os usuários não esperam alterar pode interferir na usabilidade e na previsibilidade da interface do usuário. Por exemplo, botões que alteram o local ou a finalidade sem aviso podem tornar mais difícil para determinados grupos de usuários se manterem produtivos.

Implemente estas melhores práticas:

Execute testes offline com o sistema usando diferentes abordagens de recompensa para entender o impacto e os efeitos colaterais.
Avalie as funções de recompensa e pergunte a si mesmo como uma pessoa ingênua pode alterar sua interpretação, o que pode resultar em resultados não intencionais ou indesejáveis.
Arquive informações e ativos (como modelos, políticas de aprendizado e outros dados) que o Personalizador usa para funcionar e para poder reproduzir os resultados.

Diretrizes gerais para entender e melhorar o desempenho

Como o Personalizador é baseado em Learning de Reforço e aprende com recompensas para fazer melhores escolhas ao longo do tempo, o desempenho não é medido em termos tradicionais de aprendizado supervisionado usados em classificadores, como precisão e recall. O desempenho do Personalizador é medido diretamente como a soma das pontuações de recompensa recebidas de seu aplicativo por meio da API de Recompensa.

Quando você usa o Personalizador, a interface do usuário do produto no portal do Azure fornece informações de desempenho para que você possa monitorar e agir sobre ele. O desempenho pode ser visto das seguintes maneiras:

Se o Personalizador estiver no modo de Learning Online, você poderá executar avaliações offline.
Se o Personalizador estiver no modo Aprendiz, você poderá ver as métricas de desempenho (eventos imitados e recompensas imitados) no painel Avaliação no portal do Azure.

Recomendamos que você execute avaliações offline frequentes para manter a supervisão. Isso ajudará a monitorar tendências e garantir a eficiência. Por exemplo, você pode decidir colocar temporariamente o Personalizador no Modo Aprendiz se o desempenho da recompensa tiver uma queda.

Estimativas de desempenho do Personalizador mostradas em Avaliações Offline: Limitações

Definimos o "desempenho" do Personalizador como as recompensas totais obtidas durante o uso. As estimativas de desempenho do Personalizador mostradas em Avaliações Offline são calculadas em vez de medidas. É importante entender as limitações dessas estimativas:

As estimativas são baseadas em dados passados, portanto, o desempenho futuro pode variar conforme o mundo e os usuários mudam.
As estimativas para o desempenho da linha de base são computadas probabilisticamente. Por esse motivo, a faixa de confiança para a recompensa média da linha de base é importante. A estimativa será mais precisa com mais eventos. Se você usar um número menor de ações em cada chamada de Classificação, a estimativa de desempenho poderá aumentar em confiança, pois há uma probabilidade maior de que o Personalizador possa escolher qualquer uma delas (incluindo a ação de linha de base) para cada evento.
O Personalizador treina constantemente um modelo quase em tempo real para melhorar as ações escolhidas para cada evento e, como resultado, afetará o total de recompensas obtidas. O desempenho do modelo variará ao longo do tempo, dependendo dos dados de treinamento anteriores recentes.
A opção exploração e ação são processos estocásticos guiados pelo modelo do Personalizador. Os números aleatórios usados para esses processos estocásticos são semeados da ID do Evento. Para garantir a reprodutibilidade do explore-exploit e de outros processos estocásticos, use a mesma ID de Evento.
O desempenho online pode ser limitado pela exploração. A redução das configurações de exploração limitará a quantidade de informações coletadas para se manter em cima das tendências e dos padrões de uso, portanto, o saldo depende de cada caso de uso. Alguns casos de uso merecem começar com configurações de exploração mais altas e reduzi-las ao longo do tempo (por exemplo, comece com 30% e reduza para 10%).

Verificar modelos existentes que podem acidentalmente influenciar o Personalizador

As recomendações existentes, a segmentação do cliente e as saídas do modelo de propensão podem ser usadas pelo aplicativo como entradas para o Personalizador. O Personalizador aprende a desconsiderar recursos que não contribuem para recompensas. Examine e avalie quaisquer modelos de propensão para determinar se eles são bons em prever recompensas e conter fortes vieses que podem gerar danos como um efeito colateral. Por exemplo, procure recomendações que possam ser baseadas em estereótipos prejudiciais. Considere usar ferramentas como FairLearn para facilitar o processo.

Avaliações proativas durante o ciclo de vida do projeto

Considere a criação de métodos para membros da equipe, usuários e proprietários de negócios para relatar preocupações com relação ao uso responsável e um processo que prioriza a resolução. Considere tratar as tarefas com relação ao uso responsável assim como outras tarefas transversais no ciclo de vida do aplicativo, como tarefas relacionadas à experiência do usuário, à segurança ou a DevOps. Tarefas relacionadas ao uso responsável e seus requisitos não devem ser reflexões posteriores. O uso responsável deve ser discutido e verificado ao longo do ciclo de vido do aplicativo.

Share via