Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
O algoritmo Regras de Associação da Microsoft é uma implementação simples do conhecido algoritmo Apriori.
O algoritmo Árvores de Decisão da Microsoft e o algoritmo Regras de Associação da Microsoft podem ser usados para analisar associações, mas as regras encontradas por cada algoritmo podem ser diferentes. Em um modelo de árvores de decisão, as divisões que levam a regras específicas são baseadas no ganho de informações, enquanto em um modelo de associação, as regras são baseadas completamente na confiança. Portanto, em um modelo de associação, uma regra forte ou uma que tenha alta confiança, pode não ser necessariamente interessante porque não fornece novas informações.
Implementação do Algoritmo de Associação da Microsoft
O algoritmo Apriori não analisa padrões, mas gera e conta conjuntos de itens candidatos. Um item pode representar um evento, um produto ou o valor de um atributo, dependendo do tipo de dados que está sendo analisado.
No tipo mais comum de variáveis boolianas de modelo de associação, representando um valor Sim/Não ou Ausente/Existente, são atribuídas a cada atributo, como um nome de produto ou evento. Uma análise de cesta de mercado é um exemplo de um modelo de regras de associação que usa variáveis boolianas para representar a presença ou ausência de produtos específicos na cesta de compras de um cliente.
Para cada conjunto de itens, o algoritmo cria pontuações que representam suporte e confiança. Essas pontuações podem ser usadas para classificar e derivar regras interessantes dos conjuntos de itens.
Modelos de associação também podem ser criados para atributos numéricos. Se os atributos forem contínuos, os números poderão ser discretizados ou agrupados em faixas. Em seguida, os valores discretos podem ser tratados como boolianos ou como pares atributo-valor.
Suporte, Probabilidade e Importância
O suporte, que às vezes é referido como frequência, significa o número de casos que contêm o item desejado ou a combinação de itens. Somente itens que têm pelo menos a quantidade de suporte especificada podem ser incluídos no modelo.
Um conjunto de itens frequente refere-se a uma coleção de itens em que a combinação de itens também tem suporte acima do limite definido pelo parâmetro MINIMUM_SUPPORT. Por exemplo, se o conjunto de itens for {A, B,C} e o valor MINIMUM_SUPPORT for 10, cada item individual A, B e C deverá ser encontrado em pelo menos 10 casos a serem incluídos no modelo e a combinação de itens {A,B,C} também deverá ser encontrada em pelo menos 10 casos.
Nota Você também pode controlar o número de conjuntos de itens em um modelo de mineração especificando o comprimento máximo de um conjunto de itens, em que o comprimento significa o número de itens.
Por padrão, o suporte para qualquer item ou conjunto de itens específico representa uma contagem dos casos que contêm esse item ou itens. No entanto, você também pode expressar MINIMUM_SUPPORT como uma porcentagem do total de casos no conjunto de dados digitando o número como um valor decimal menor que 1. Por exemplo, se você especificar um valor de MINIMUM_SUPPORT de 0,03, isso significa que pelo menos 3% do total de casos no conjunto de dados devem conter esse item ou conjunto de itens para inclusão no modelo. Você deve experimentar seu modelo para determinar se o uso de uma contagem ou porcentagem faz mais sentido.
Por outro lado, o limite para regras é expresso não como uma contagem ou porcentagem, mas como uma probabilidade, às vezes conhecida como confiança. Por exemplo, se o conjunto de itens {A,B,C} ocorrer em 50 casos, mas o conjunto de itens {A,B,D} também ocorrer em 50 casos e o conjunto de itens {A,B} em outros 50 casos, é óbvio que {A,B} não é um preditor forte de {C}. Portanto, para ponderar determinados resultados em relação a todos os resultados conhecidos, o Analysis Services calcula a probabilidade da regra individual (como If {A,B} Then {C}) dividindo o suporte para o conjunto de itens {A,B,C} pelo suporte para todos os conjuntos de itens relacionados.
Você pode restringir o número de regras que um modelo produz definindo um valor para MINIMUM_PROBABILITY.
Para cada regra criada, o Analysis Services gera uma pontuação que indica sua importância, que também é conhecida como lift. A Importância do Lift é calculada de forma diferente para conjuntos de itens e regras.
A importância de um conjunto de itens é calculada como a probabilidade do conjunto de itens dividido pela probabilidade composta dos itens individuais no conjunto de itens. Por exemplo, se um conjunto de itens contiver {A,B}, o Analysis Services primeiro conta todos os casos que contêm essa combinação A e B e divide isso pelo número total de casos e, em seguida, normaliza a probabilidade.
A importância de uma regra é calculada pela verossimilhança logarítmica do lado direito da regra, dado o lado esquerdo da regra. Por exemplo, na regra If {A} Then {B}, o Analysis Services calcula a proporção de casos com A e B em casos com B, mas sem A, e normaliza essa taxa usando uma escala logarítmica.
Seleção de recursos
O algoritmo Regras de Associação da Microsoft não executa nenhum tipo de seleção automática de recursos. Em vez disso, o algoritmo fornece parâmetros que controlam os dados usados pelo algoritmo. Isso pode incluir limites no tamanho de cada conjunto de itens ou definir o suporte máximo e mínimo necessário para adicionar um conjunto de itens ao modelo.
Para filtrar itens e eventos muito comuns e, portanto, desinteressantes, diminua o valor de MAXIMUM_SUPPORT para remover conjuntos de itens muito frequentes do modelo.
Para filtrar itens e conjuntos de itens que são raros, aumente o valor de MINIMUM_SUPPORT.
Para filtrar regras, aumente o valor de MINIMUM_PROBABILITY.
Personalizando o algoritmo regras de associação da Microsoft
O algoritmo Regras de Associação da Microsoft dá suporte a vários parâmetros que afetam o comportamento, o desempenho e a precisão do modelo de mineração resultante.
Definindo parâmetros de algoritmo
Você pode alterar os parâmetros de um modelo de mineração a qualquer momento usando o Designer de Mineração de Dados no SSDT (SQL Server Data Tools). Você também pode alterar parâmetros programaticamente usando a AlgorithmParameters coleção do AMO ou usando o Elemento MiningModels (ASSL) em XMLA. A tabela a seguir descreve cada parâmetro.
Observação
Você não pode alterar os parâmetros em um modelo existente usando uma instrução DMX; você deve especificar os parâmetros no DMX CREATE MODEL ou ALTER STRUCTURE... ADICIONAR MODELO ao criar o modelo.
MAXIMUM_ITEMSET_COUNT
Especifica o número máximo de conjuntos de itens a serem produzidos. Se nenhum número for especificado, o valor padrão será usado.
O padrão é 200000.
Observação
Os conjuntos de itens são classificados por suporte. Entre os conjuntos de itens que têm o mesmo suporte, a ordenação é arbitrária.
MAXIMUM_ITEMSET_SIZE
Especifica o número máximo de itens permitidos em um conjunto de itens. Definir esse valor como 0 especifica que não há limite para o tamanho do conjunto de itens.
O padrão é 3.
Observação
Diminuir esse valor pode potencialmente reduzir o tempo necessário para criar o modelo, pois o processamento do modelo é interrompido quando o limite é atingido.
MAXIMUM_SUPPORT
Especifica o número máximo de casos que um conjunto de itens tem para dar suporte. Esse parâmetro pode ser usado para eliminar itens que aparecem com frequência e, portanto, potencialmente têm pouco significado.
Se esse valor for menor que 1, o valor representará uma porcentagem do total de casos. Valores maiores que 1 representam o número absoluto de casos que podem conter o conjunto de itens.
O padrão é 1.
MINIMUM_ITEMSET_SIZE
Especifica o número mínimo de itens permitidos em um conjunto de itens. Se você aumentar esse número, o modelo poderá conter menos conjuntos de itens. Isso pode ser útil se você quiser ignorar conjuntos de itens de item único, por exemplo.
O padrão é 1.
Observação
Você não pode reduzir o tempo de processamento do modelo aumentando o valor mínimo, pois o Analysis Services deve calcular probabilidades para itens únicos de qualquer maneira como parte do processamento. No entanto, definindo esse valor mais alto, você pode filtrar conjuntos de itens menores.
MINIMUM_PROBABILITY
Especifica a probabilidade mínima de que uma regra seja verdadeira.
Por exemplo, se você definir esse valor como 0,5, isso significa que nenhuma regra com menos de 50% de probabilidade poderá ser gerada.
O padrão é 0,4.
MINIMUM_SUPPORT
Especifica o número mínimo de casos que devem conter o conjunto de itens antes que o algoritmo gere uma regra.
Se você definir esse valor como menor que 1, o número mínimo de casos será calculado como um percentual do total de casos.
Se você definir esse valor como um número inteiro maior que 1, especifica que o número mínimo de casos será calculado como uma contagem de casos que devem conter o conjunto de itens. O algoritmo poderá aumentar automaticamente o valor desse parâmetro se a memória for limitada.
O padrão é 0,03. Isso significa que, para ser incluído no modelo, um conjunto de itens deve ser encontrado em pelo menos três% de casos.
OPTIMIZED_PREDICTION_COUNT
Define o número de itens a serem armazenados em cache para otimizar a previsão.
O valor padrão é 0. Quando o padrão é usado, o algoritmo produzirá quantas previsões forem solicitadas na consulta.
Se você especificar um valor diferente de zero para OPTIMIZED_PREDICTION_COUNT, as consultas de previsão poderão retornar no máximo o número especificado de itens, mesmo se você solicitar previsões adicionais. No entanto, definir um valor pode melhorar o desempenho da previsão.
Por exemplo, se o valor for definido como 3, o algoritmo armazenará em cache apenas 3 itens para previsão. Você não pode ver previsões adicionais que podem ser igualmente prováveis para os 3 itens que são retornados.
Bandeiras de Modelagem
Os indicadores de modelagem a seguir são compatíveis com o algoritmo de Regras de Associação da Microsoft.
NÃO NULO
Indica que a coluna não pode conter um nulo. Um erro resultará se o Analysis Services encontrar um valor nulo durante o treinamento do modelo.
Aplica-se à coluna de estrutura de mineração.
MODEL_EXISTENCE_ONLY
Significa que a coluna será tratada como tendo dois estados possíveis: Missing e Existing. Um valor nulo é um valor ausente.
Aplica-se à coluna do modelo de mineração.
Requisitos
Um modelo de associação deve conter uma coluna de chave, colunas de entrada e uma única coluna previsível.
Colunas de entrada e previsão
O algoritmo Regras de Associação da Microsoft dá suporte às colunas de entrada específicas e colunas previsíveis listadas na tabela a seguir. Para obter mais informações sobre o significado de tipos de conteúdo em um modelo de mineração, consulte Tipos de Conteúdo (Mineração de Dados).
| Coluna | Tipos de conteúdo |
|---|---|
| Atributo de entrada | Cíclico, discreto, discretizado, chave, tabela, ordenado |
| Atributo previsível | Cíclico, discreto, discretizado, tabela, ordenado |
Observação
Tipos de conteúdo cíclico e ordenado têm suporte, mas o algoritmo os trata como valores discretos e não executa processamento especial.
Consulte Também
Algoritmo de Associação da Microsoft
Exemplos de consulta de modelo de associação
Conteúdo do modelo de mineração para modelos de associação (Analysis Services – Mineração de dados)