O que é a Aprendizagem por Reforço?
Importante
A partir de 20 de setembro de 2023, você não poderá criar novos recursos do Personalizador. O serviço de Personalizador será aposentado no dia 1º de outubro de 2026.
A Aprendizagem por Reforço é uma abordagem à aprendizagem automática que aprende comportamentos obtendo feedback da sua utilização.
A Aprendizagem por Reforço funciona por:
- Proporcionar uma oportunidade ou um grau de liberdade para adotar um comportamento - como tomar decisões ou escolhas.
- Fornecer informações contextuais sobre o ambiente e as escolhas.
- Fornecer feedback sobre o quão bem o comportamento atinge um determinado objetivo.
Embora existam muitos subtipos e estilos de aprendizagem por reforço, é assim que o conceito funciona no Personalizador:
- Seu aplicativo oferece a oportunidade de mostrar um conteúdo de uma lista de alternativas.
- Seu aplicativo fornece informações sobre cada alternativa e o contexto do usuário.
- A sua candidatura calcula uma pontuação de recompensa.
Ao contrário de algumas abordagens à aprendizagem por reforço, o Personalizer não requer uma simulação para trabalhar. Seus algoritmos de aprendizagem são projetados para reagir a um mundo exterior (versus controlá-lo) e aprender a partir de cada ponto de dados com a compreensão de que é uma oportunidade única que custa tempo e dinheiro para criar, e que há um arrependimento diferente de zero (perda de possível recompensa) se um desempenho abaixo do ideal acontecer.
Que tipo de algoritmos de aprendizagem por reforço o Personalizer usa?
A versão atual do Personalizer usa bandidos contextuais, uma abordagem de aprendizagem por reforço que é enquadrada em torno da tomada de decisões ou escolhas entre ações discretas, em um determinado contexto.
A memória de decisão, o modelo que foi treinado para capturar a melhor decisão possível, dado um contexto, usa um conjunto de modelos lineares. Estes têm repetidamente mostrado resultados de negócios e são uma abordagem comprovada, em parte porque eles podem aprender com o mundo real muito rapidamente sem precisar de treinamento multi-passe, e em parte porque eles podem complementar modelos de aprendizagem supervisionada e modelos de redes neurais profundas.
A alocação de tráfego de exploração/melhor ação é feita aleatoriamente seguindo a porcentagem definida para exploração, e o algoritmo padrão para exploração é ganancioso de epsilon.
História dos Bandidos Contextuais
John Langford cunhou o nome Contextual Bandits (Langford e Zhang [2007]) para descrever um subconjunto tratável de aprendizagem por reforço e trabalhou em meia dúzia de artigos melhorando nossa compreensão de como aprender neste paradigma:
- [2011]
- [2011a, b]
- [2014, 2012]
- Beygelzimer e Langford [2009]
- [2010]
John também deu vários tutoriais anteriormente sobre tópicos como Previsão Conjunta (ICML 2015), Teoria do Bandido Contextual (NIPS 2013), Aprendizagem Ativa (ICML 2009) e Limites de Complexidade de Amostra (ICML 2003)
Quais estruturas de aprendizado de máquina o Personalizer usa?
Atualmente, o Personalizer usa o Vowpal Wabbit como base para o aprendizado de máquina. Essa estrutura permite a taxa de transferência máxima e a menor latência ao fazer classificações de personalização e treinar o modelo com todos os eventos.
Referências
- Tomada de decisões contextuais com baixa dívida técnica
- Uma abordagem de redução para a classificação equitativa
- Bandidos contextuais eficientes em mundos não estacionários
- Previsão de Perda Residual: Reforço: aprendizagem sem feedback incremental
- Mapeamento de Instruções e Observações Visuais para Ações com Aprendizagem por Reforço
- Aprender a pesquisar melhor do que o seu professor