Avaliação offline

2024-09-02

Importante

A partir de 20 de setembro de 2023, você não poderá criar novos recursos do Personalizador. O serviço de Personalizador será aposentado no dia 1º de outubro de 2026.

A avaliação offline é um método que permite testar e avaliar a eficácia do Serviço Personalizador sem alterar o seu código ou afetar a experiência do utilizador. A avaliação offline usa dados passados, enviados do seu aplicativo para as APIs de Classificação e Recompensa, para comparar o desempenho de diferentes classificações.

A avaliação offline é realizada em um intervalo de datas. O intervalo pode terminar tão tarde quanto a hora atual. O início do intervalo não pode ser superior ao número de dias especificado para a retenção de dados.

A avaliação offline pode ajudá-lo a responder às seguintes perguntas:

Quão eficazes são as classificações do Personalizer para uma personalização bem-sucedida?
- Quais são as recompensas médias alcançadas pela política de aprendizado de máquina on-line do Personalizer?
- Como o Personalizer se compara à eficácia do que o aplicativo teria feito por padrão?
- Qual teria sido a eficácia comparativa de uma escolha aleatória para a Personalização?
- Qual teria sido a eficácia comparativa das diferentes políticas de aprendizagem especificadas manualmente?
Quais características do contexto estão contribuindo mais ou menos para uma personalização bem-sucedida?
Quais características das ações estão contribuindo mais ou menos para uma personalização bem-sucedida?

Além disso, a Avaliação Offline pode ser usada para descobrir políticas de aprendizagem mais otimizadas que o Personalizer pode usar para melhorar os resultados no futuro.

As avaliações off-line não fornecem orientação quanto à porcentagem de eventos a serem usados para exploração.

Pré-requisitos para avaliação offline

A seguir estão considerações importantes para a avaliação offline representativa:

Tenha dados suficientes. O mínimo recomendado é de pelo menos 50.000 eventos.
Colete dados de períodos com comportamento e tráfego representativos do usuário.

Descobrir a política de aprendizagem otimizada

O Personalizer pode usar o processo de avaliação offline para descobrir automaticamente uma política de aprendizagem mais otimizada.

Depois de realizar a avaliação offline, você pode ver a eficácia comparativa do Personalizer com essa nova política em comparação com a política on-line atual. Em seguida, você pode aplicar essa política de aprendizagem para torná-la efetiva imediatamente no Personalizador, baixando-a e carregando-a no painel Modelos e Políticas. Você também pode baixá-lo para análise ou uso futuro.

Políticas atuais incluídas na avaliação:

Configurações de aprendizagem	Propósito
Política Online	A Política de Aprendizagem atual usada no Personalizer
Início do estudo	O padrão do aplicativo (conforme determinado pela primeira Ação enviada em chamadas de classificação)
Política aleatória	Um comportamento imaginário de Rank que sempre retorna a escolha aleatória de Ações das fornecidas.
Políticas Personalizadas	Políticas de Aprendizagem Adicionais carregadas ao iniciar a avaliação.
Política otimizada	Se a avaliação foi iniciada com a opção de descobrir uma política otimizada, ela também será comparada, e você poderá baixá-la ou torná-la a política de aprendizagem on-line, substituindo a atual.

Compreender a relevância dos resultados da avaliação offline

Quando você executa uma avaliação offline, é muito importante analisar os limites de confiança dos resultados. Se forem amplas, significa que a sua candidatura não recebeu dados suficientes para que as estimativas de recompensa sejam precisas ou significativas. À medida que o sistema acumula mais dados e você executa avaliações offline por períodos mais longos, os intervalos de confiança se tornam mais estreitos.

Como são feitas as avaliações offline

As avaliações offline são feitas usando um método chamado Avaliação Contrafactual.

O Personalizer é construído com base no pressuposto de que o comportamento dos usuários (e, portanto, as recompensas) são impossíveis de prever retrospetivamente (o Personalizer não pode saber o que teria acontecido se o usuário tivesse sido mostrado algo diferente do que ele viu), e apenas para aprender com as recompensas medidas.

Este é o processo conceptual utilizado para as avaliações:

[For a given _learning policy), such as the online learning policy, uploaded learning policies, or optimized candidate policies]:
{
    Initialize a virtual instance of Personalizer with that policy and a blank model;

    [For every chronological event in the logs]
    {
        - Perform a Rank call

        - Compare the reward of the results against the logged user behavior.
            - If they match, train the model on the observed reward in the logs.
            - If they don't match, then what the user would have done is unknown, so the event is discarded and not used for training or measurement.

    }

    Add up the rewards and statistics that were predicted, do some aggregation to aid visualizations, and save the results.
}

A avaliação offline usa apenas o comportamento observado do usuário. Esse processo descarta grandes volumes de dados, especialmente se seu aplicativo fizer chamadas de classificação com um grande número de ações.

Avaliação de características

As avaliações off-line podem fornecer informações sobre o quanto dos recursos específicos para ações ou contexto estão pesando para recompensas mais altas. As informações são calculadas usando a avaliação em relação ao período de tempo e dados fornecidos, e podem variar com o tempo.

Recomendamos examinar as avaliações de recursos e perguntar:

Que outros recursos adicionais seu aplicativo ou sistema poderia fornecer nos moldes daqueles que são mais eficazes?
Que características podem ser removidas devido à baixa eficácia? Recursos de baixa eficácia adicionam ruído ao aprendizado de máquina.
Existem recursos que são incluídos acidentalmente? Exemplos disso são: informações de identificação do usuário, IDs duplicados, etc.
Existem recursos indesejáveis que não devem ser usados para personalizar devido a considerações regulatórias ou de uso responsável? Existem recursos que podem ser proxy (ou seja, espelhar ou correlacionar com) recursos indesejáveis?

Próximos passos

Configurar o Personalizer Executar avaliações offline Compreender como funciona o Personalizer

Partilhar via