Compartilhar via


Criar políticas controladas por dados e influenciar a tomada de decisões

Os modelos de machine learning são avançados na identificação de padrões em dados e na criação de previsões. Mas eles oferecem pouco suporte para estimar como o resultado no mundo real é alterado na presença de uma intervenção.

Os profissionais têm se concentrado cada vez mais no uso de dados históricos para informar futuras decisões e intervenções de negócios. Por exemplo, como a receita seria afetada se uma empresa adotasse uma nova estratégia de preços? Um novo medicamento melhoraria a condição de um paciente, na ausência de outras mudanças?

O componente de inferência causal do painel de IA Responsável aborda essas questões estimando o efeito de um recurso sobre um resultado de interesse em média, em uma população ou em uma coorte e no nível individual. Ele também ajuda a elaborar intervenções promissoras simulando diferentes respostas do recurso a várias intervenções e criando regras para determinar quais coortes populacionais se beneficiariam de uma intervenção. Coletivamente, essas funcionalidades permitem que os tomadores de decisão apliquem novas políticas e impulsionem mudanças no mundo real.

As funcionalidades desse componente vêm do pacote EconoML. Ele estima efeitos de tratamento heterogêneos por meio de dados observacionais com a técnica de aprendizado de máquina duplo.

Use a inferência causal quando precisar:

  • Identificar os recursos que têm o efeito mais direto sobre seu resultado de interesse.
  • Decidir qual política de tratamento geral adotar para maximizar o impacto no mundo real sobre um resultado de interesse.
  • Entender como indivíduos com determinados valores de recurso responderiam a uma política de tratamento específica.

Como os insights de inferência causal são gerados?

Observação

Somente dados históricos são necessários para gerar insights causais. Os efeitos causais calculados com base nos recursos de tratamento são puramente uma propriedade de dados. Portanto, um modelo treinado é opcional quando você calcula os efeitos causais.

O aprendizado de máquina duplo é um método para estimar efeitos de tratamento heterogêneos quando são observados todos os potenciais cofundadores/controles (fatores que tiveram simultaneamente um efeito direto sobre a decisão de tratamento nos dados coletados e no resultado observado), mas existe algum dos problemas a seguir:

  • Há muitos, de modo que abordagens estatísticas clássicas não são aplicáveis. Ou seja, eles são de alta dimensão.
  • O efeito deles sobre o tratamento e o resultado não pode ser modelado satisfatoriamente por funções paramétricas. Ou seja, eles não são paramétricos.

Você pode usar técnicas de aprendizado de máquina para resolver ambos os problemas. Por exemplo, confira Chernozhukov2016.

O aprendizado de máquina duplo reduz o problema primeiro estimando duas tarefas preditivas:

  • Prever o resultado dos controles
  • Prever o tratamento dos controles

Em seguida, o método combina esses dois modelos preditivos em uma estimativa de estágio final para criar um modelo do efeito de tratamento heterogêneo. Essa abordagem permite que algoritmos de aprendizado de máquina arbitrários sejam usados para as duas tarefas preditivas, mantendo muitas propriedades estatísticas favoráveis relacionadas ao modelo final. Essas propriedades incluem erro quadrático médio pequeno, normalidade assintótica e construção de intervalos de confiança.

Quais outras ferramentas a Microsoft fornece para inferência causal?

  • O Project Azua fornece uma nova estrutura que se concentra na inferência causal de ponta a ponta.

    A tecnologia DECI (inferência causal profunda de ponta a ponta) do Azua é um modelo único capaz de, simultaneamente, fazer descoberta causal e inferência causal. O usuário fornece dados, e o modelo pode gerar as relações causais entre todas as variáveis.

    Por si só, essa abordagem pode fornecer insights sobre os dados. Ela habilita o cálculo de métricas como o ITE (efeito de tratamento individual), o ATE (efeito médio do tratamento) e o CATE (efeito de tratamento médio condicional). Você pode usar esses cálculos para tomar decisões ideais.

    A estrutura é escalonável para dados grandes, em termos tanto de número de variáveis quanto de número de pontos de dados. Ele também pode processar entradas de dados ausentes com tipos estatísticos mistos.

  • O EconML alimenta o back-end do componente de inferência causal do painel de IA Responsável. É um pacote de Python que aplica as técnicas de aprendizado de máquina para estimar respostas causais individualizadas de dados observacionais ou experimentais.

    O conjunto de métodos de estimativa no EconML representa os avanços mais recentes no aprendizado de máquina causal. Ao incorporar etapas individuais de machine learning em modelos causais interpretáveis, esses métodos aumentam a confiabilidade das previsões de teste de hipóteses e tornam a análise causal mais rápida e fácil para um amplo conjunto de usuários.

  • DoWhy é uma biblioteca de Python cujo objetivo é estimular o pensamento e a análise causal. DoWhy fornece uma interface de quatro etapas com princípios para inferência causal focada em modelar explicitamente suposições causais e validá-las o máximo possível.

    O principal recurso de DoWhy é a API de refutação de última geração capaz de testar automaticamente suposições causais para qualquer método de estimativa. Torna a inferência mais robusta e acessível a não especialistas.

    O DoWhy dá suporte à estimativa do efeito causal médio para porta dos fundos, front door, variável instrumental e outros métodos de identificação. Ele também dá suporte à estimativa do CATE por meio de uma integração com a biblioteca EconML.

Próximas etapas