O que é o Personalizador?

Artigo
01/19/2024

Importante

A partir de 20 de setembro de 2023, você não poderá criar novos recursos do Personalizador. O serviço Personalizador está sendo desativado no dia 1º de outubro de 2026.

Observação

A partir de julho de 2023, os serviços de IA do Azure passaram a abranger tudo o que antes era conhecido como Serviços Cognitivos e Serviços de IA Aplicada do Azure. Não houve alterações nos preços. Os nomes Serviços Cognitivos e IA Aplicada do Azure continuam a ser usados nas APIs de cobrança, análises de custo, listas de preços e preço do Azure. Não houve alterações interruptivas nas interfaces de programação de aplicativo (APIs) ou SDKs.

O Personalizador de IA do Azure é um serviço de IA que permite que seus aplicativos tomem decisões mais inteligentes em grande escala usando o aprendizado de reforço. O Personalizador processa informações sobre o estado do aplicativo, cenário e/ou usuários (contextos) e um conjunto de possíveis decisões e atributos relacionados (ações) para determinar a melhor decisão a ser tomada. Os comentários do aplicativo (recompensas) são enviados ao Personalizador para saber como melhorar sua capacidade de tomada de decisão quase em tempo real.

O Personalizador pode determinar as melhores ações a serem tomadas em diversos cenários:

Comércio eletrônico: qual produto deve ser exibido aos clientes para maximizar a probabilidade de uma compra?
Recomendação de conteúdo: qual artigo deve ser exibido para aumentar a taxa de cliques?
Design de conteúdo: onde um anúncio deve ser colocado para otimizar a participação do usuário em um site?
Comunicação: quando e como uma notificação deve ser enviada para maximizar a chance de uma resposta?

Para começar a usar o Personalizador, siga o guia de início rápido ou tente o Personalizador em seu navegador com esta demonstração interativa.

Esta documentação contém os seguintes tipos de artigos:

Os guias de início rápido fornecem instruções passo a passo para guiá-lo pela instalação e o código de exemplo para começar a fazer solicitações de API para o serviço.
Os guias de instruções contêm instruções para usar recursos do Personalizador e recursos avançados.
Os exemplos de código demonstram como usar o Personalizador e ajudá-lo a conectar facilmente seu aplicativo com o serviço.
Os tutoriais são um passo a passo mais longo que implementam o Personalizador como parte de uma solução de negócios mais ampla.
Os conceitos fornecem mais detalhes sobre os recursos e conceitos básicos do Personalizador.

Como funciona o Personalizador?

O Personalizador usa o aprendizado de reforço para selecionar a melhor ação para um determinado contexto entre todos os usuários, a fim de maximizar uma recompensa média.

Contexto: informações que descrevem o estado do aplicativo, cenário ou usuário que podem ser relevantes para tomar uma decisão.
- Exemplo: o local, o tipo de dispositivo, a idade e os tópicos favoritos dos usuários que visitam um site.
Ações: um conjunto discreto de itens que podem ser escolhidos, juntamente com atributos que descrevem cada item.
- Exemplo: um conjunto de artigos de notícias e os tópicos que são discutidos em cada artigo.
Recompensa: uma pontuação numérica entre 0 e 1 que indica se a decisão foi ruim (0) ou boa (1)
- Exemplo: "1" indica que um usuário clicou no artigo sugerido, enquanto "0" indica que o usuário não clicou.

APIs de Classificação e Recompensa

O Personalizador capacita você a aproveitar o poder e a flexibilidade do aprendizado de reforço usando apenas duas APIs primárias.

A API de Classificação é chamada pelo aplicativo sempre que há uma decisão a ser tomada. O aplicativo envia um JSON contendo um conjunto de ações, recursos que descrevem cada ação e recursos que descrevem o contexto atual. Cada chamada à API de Classificação é conhecida como um evento e indicada com uma ID de evento exclusiva. Em seguida, o Personalizador retorna a ID da melhor ação que maximiza a recompensa média total, conforme determinado pelo modelo subjacente.

A API de Recompensa é chamada pelo aplicativo sempre que há comentários que podem ajudar o Personalizador a saber se a ID da ação retornou no valor fornecido pela chamada da Classificação. Por exemplo, se um usuário clicou no artigo de notícias sugerido ou concluiu a compra de um produto sugerido. Uma chamada para a API de Recompensa pode ser feita em tempo real (logo após a chamada de Classificação ser feita) ou atrasada para melhor atender às necessidades do cenário. A pontuação de recompensa é determinada por suas métricas e objetivos comerciais e pode ser gerada por um algoritmo ou regras no aplicativo. A pontuação é um número de valor real entre 0 e 1.

Modos de aprendizagem

Modo Aprendiz Semelhante a como um aprendiz aprende um ofício observando um especialista, o modo Aprendiz permite que o Personalizador aprenda observando a lógica da decisão atual do aplicativo. Isso ajuda a atenuar o chamado problema de "inicialização a frio" com um novo modelo não treinado e permite que você valide os recursos de ação e contexto que são enviados ao Personalizador. No modo Aprendiz, cada chamada à API de Classificação retorna a ação de linha de base ou a ação padrão, que é a ação que o aplicativo teria executado sem usar o Personalizador. Isso é enviado pelo aplicativo ao Personalizador na API de Classificação como o primeiro item no conjunto de ações possíveis.
Modo online O Personalizador retornará a melhor ação, considerando o contexto, conforme determinado pelo modelo de RL subjacente e explorará outras ações possíveis que podem melhorar o desempenho. O Personalizador aprende com os comentários fornecidos em chamadas à API de Recompensa.

Observe que o Personalizador usa informações coletivas entre todos os usuários para saber as melhores ações com base no contexto atual. O serviço não:

Persista e gerencie informações de perfil do usuário. IDs de usuário exclusivas não devem ser enviadas ao Personalizador.
Registre em log as preferências ou os dados históricos de usuários individuais.

Cenários de exemplo

Aqui estão alguns exemplos que o Personalizador pode ser usado para selecionar o melhor conteúdo a ser renderizado para um usuário.

Tipo de conteúdo	Ações {features}	Recursos de contexto	ID da Ação de Recompensa Retornada (exibir este conteúdo)
Artigos de notícias	a. `The president...`, {nacional, política, [texto]} b. `Premier League ...` {global, esportes, [texto, imagem, vídeo]} c. `Hurricane in the ...` {regional, clima, [texto, imagem]}	Country='USA', Recent_Topics=('politics', 'business'), Month='October'	um `The president...`
Movies	1. `Star Wars` {1977, [ação, aventura, fantasia], George Lucas} 2. `Hoop Dreams` {1994, [documentário, esportes], Steve James} 3. `Casablanca` {1942, [romance, drama, guerra], Michael Curtiz}	Device='smart TV', Screen_Size='large', Favorite_Genre='classics'	3. `Casablanca`
Produtos de comércio eletrônico	i. `Product A` {3 kg, $$$$, entrega em 1 dia} ii. `Product B` {20 kg, $$, entrega em 7 dias} III. `Product C` {3 kg, $$$, entrega em 2 dias}	Device='iPhone', Spending_Tier='low', Month='June'	ii. `Product B`

Requisitos do cenário

Use o Personalizador quando o cenário tiver:

Um conjunto limitado de ações ou itens para selecionar em cada evento de personalização. Recomendamos não mais do que aproximadamente 50 ações em cada chamada à API de Classificação. Se você tiver um conjunto maior de ações possíveis, sugerimos usar um mecanismo de recomendação ou outro mecanismo para reduzir a lista de ações antes de chamar a API de Classificação.
Informações que descrevem as ações (recursos de ação).
Informações que descrevem o contexto atual (recursos contextuais).
Volume de dados suficiente para habilitar o Personalizador para aprender. Em geral, recomendamos um mínimo de aproximadamente 1.000 eventos por dia para permitir que o Personalizador aprenda de forma eficaz. Se o Personalizador não receber dados suficientes, o serviço demora mais para determinar as melhores ações.

Uso responsável da IA

Na Microsoft, estamos comprometidos com o avanço da IA orientado por princípios que colocam as pessoas em primeiro lugar. Os modelos de IA, como os disponíveis no serviço Personalizador têm benefícios potenciais significativos, mas sem um design cuidadoso e mitigações criteriosas, esses modelos têm o potencial de gerar conteúdo incorreto ou até prejudicial. A Microsoft fez investimentos significativos para ajudar a proteger contra abusos e danos não intencionais, incorporando os princípios da Microsoft para uso responsável de IA, criando filtros de conteúdo para dar suporte aos clientes e fornecendo as diretrizes de implementação de IA responsável para clientes integrados. Consulte os documentos de IA responsável para o Personalizador.

Integrar o Personalizador a um aplicativo

Projete e planeje as ações e o contexto. Determine como interpretar comentários como uma pontuação de recompensa.

Cada Recurso do Personalizador criado é definido como um Loop de Aprendizado. O loop receberá chamadas de Classificação e Recompensa para o conteúdo ou a experiência do usuário e treinará um modelo subjacente do RL. Elas são

Tipo de recurso	Finalidade
Modo Aprendiz - `E0`	Treine o Personalizador para imitar sua lógica de tomada de decisão atual sem afetar o aplicativo existente, antes de usar o modo Online para conhecer melhores políticas em um ambiente de produção.
Modo online – Standard, `S0`	O Personalizador usa RL para determinar as melhores ações na produção.
Modo online – Gratuito, `F0`	Experimente o Personalizador em um ambiente de não produção limitado.

Adicione o Personalizador ao aplicativo, site ou sistema:

Adicione uma chamada de Classificação ao Personalizador em seu aplicativo, site ou sistema para determinar a melhor ação.
Use a melhor ação, conforme especificado como uma ID de ação de recompensa em seu cenário.

Aplique a lógica de negócios aos dados de comportamento ou comentários do usuário para determinar a pontuação de recompensa. Por exemplo:

Comportamento	Pontuação de recompensa calculada
O usuário selecionou um artigo de notícias sugerido pelo Personalizador	1
O usuário selecionou um artigo de notícias não sugerido pelo Personalizador	0
O usuário hesitou em selecionar um artigo de notícias, rolou a tela de maneira indecisa e, por fim, selecionou o artigo de notícias sugerido pelo Personalizador	0.5

Adicione uma chamada de Recompensa enviando uma pontuação de recompensa entre 0 e 1
- Imediatamente após o recebimento dos comentários.
- Ou em algum momento posterior em cenários em que os comentários atrasados são esperados.
Avalie seu loop com uma avaliação offline após um período em que o Personalizador recebeu dados significativos para tomar decisões online. Uma avaliação offline permite testar e avaliar a eficácia do serviço do Personalizador sem alterar o código nem afetar o usuário.

Próximas etapas

Guia de início rápido do Personalizador