Personalizar os modelos de mineração e a estrutura

Artigo
07/30/2013

Depois de selecionar um algoritmo que atende as necessidades do seu negócio, é possível personalizar o modelo de mineração das formas a seguir para melhorar potencialmente os resultados.

Use colunas diferentes de dados no modelo ou altere o uso, tipos de conteúdo ou método de diferenciação para as colunas.
Crie filtros no modelo de mineração para restringir os dados usados para treinar o modelo.
Altere o algoritmo que foi usado para analisar dados.
Defina parâmetros de algoritmo para controlar limites, divisões de árvore e outras condições importantes.

Este tópico descreve estas opções.

Alterando os dados usados pelo modelo

As decisões relacionadas a quais colunas de dados serão usadas no modelo e como usar e processar os dados afetam consideravelmente os resultados da análise. Os tópicos a seguir fornecem informações para ajudá-lo a entender essas escolhas.

Usando a seleção de recursos

A maioria dos algoritmos de mineração de dados no Analysis Services usam um processo chamado seleção de recursos para selecionar apenas os atributos mais úteis para serem adicionados a um modelo. A redução do número de colunas e atributos pode melhorar o desempenho e a qualidade do modelo. Os métodos de seleção de recursos disponíveis diferem de acordo com o algoritmo escolhido.

Seleção de recursos (mineração de dados).

Alterando uso

Você pode alterar quais colunas são incluídas em um modelo de mineração e como cada coluna é usada. Se você não obtiver os resultados esperados, exemplifique as colunas que você usou como entrada e pergunte-se se elas são uma boa escolha boa, e se há algo que você possa fazer para melhorar a manipulação de dados, incluindo:

Identificar variáveis categóricas que foram rotuladas erroneamente como números.
Adicionar categorias para recolher o número de atributos e facilitar a localização de correlações.
Alterar o modo como os números são compartimentados ou discretizados.
Remover colunas que têm muitos valores exclusivos ou colunas que são realmente dados de referência e não são úteis para análise, como endereços ou nomes do meio.

Você não precisa remover colunas fisicamente da estrutura de mineração; você pode sinalizar a coluna apenas como Ignorar. A coluna será removida do modelo de mineração, mas essa coluna ainda poderá ser usada por outros modelos de mineração na estrutura ou referenciada em uma consulta de detalhamento.

Criando alias em colunas do modelo

Quando o Analysis Services criar o modelo de mineração, ele usa os mesmos nomes de colunas que estão na estrutura de mineração. Você pode adicionar um alias a qualquer coluna no modelo de mineração. Isso pode tornar mais fácil entender o conteúdo da coluna ou o uso ou fazer com que o nome fique mais curto para conveniência na criação de consultas. Os aliases também são úteis quando você quer criar uma cópia de uma coluna e nomeá-la com algo descritivo.

Você cria um alias editando a propriedade Name da coluna do modelo de mineração. O Analysis Services continua a usar o nome original como ID de coluna, o novo valor digitado para Nome torna-se o alias da coluna e é exibido na grade em parênteses próximo ao uso da coluna.

alias em colunas do modelo de mineração

O gráfico mostra modelos relacionados que têm várias cópias de uma coluna de estrutura de mineração, todas relacionadas a Receita. Cada cópia da coluna de estrutura foi discretizada de um modo diferente. Os modelos no diagrama usam cada um uma coluna diferente a partir da estrutura de mineração; no entanto, para a conveniência na comparação de colunas pelos modelos, a coluna em cada modelo foi renomeada para [Receita].

Adicionando filtros

Você pode adicionar um filtro a um modelo de mineração. Um filtro é um conjunto de condições WHERE que restringe os dados nos casos de modelo a algum subconjunto. O filtro é usado ao treinar o modelo e pode opcionalmente ser usado quando você testa o modelo ou cria gráficos de precisão.

Ao adicionar filtros, você pode reutilizar as estruturas de mineração, mas criar modelos com base em subconjuntos muito diferentes dos dados. Ou você pode simplesmente usar filtros para eliminar determinadas linhas e melhorar a qualidade da análise.

Para obter mais informações, consulte Filtros para modelos de mineração (Analysis Services - Mineração de dados).

Alterando o algoritmo

Embora novos modelos que você adiciona a uma estrutura de mineração compartilhem o mesmo conjunto de dados, você pode obter resultados diferentes usando um algoritmo diferente (se os dados derem suporte a isto), ou alterando os parâmetros para o algoritmo. Você também pode definir sinalizadores de modelagem.

A escolha do algoritmo determina que tipo de resultados você terá. Para obter informações gerais sobre como um algoritmo específico funciona ou sobre os cenários de negócio onde você se beneficiaria ao usar um algoritmo específico, consulte Algoritmos de mineração de dados (Analysis Services – Mineração de Dados).

Consulte o tópico de referência técnica para cada algoritmo para obter uma descrição de requisitos e restrições, assim como informações detalhadas sobre as personalizações ao qual cada algoritmo dá suporte.

Algoritmo Árvores de Decisão da Microsoft	Algoritmo MTS
Algoritmo Microsoft Clustering	Algoritmo Rede Neural da Microsoft
Algoritmo Naïve Bayes da Microsoft	Algoritmo Regressão Logística da Microsoft
Algoritmo Associação da Microsoft	Algoritmo Regressão Linear da Microsoft
Algoritmo MSC

Personalizando parâmetros de algoritmo

Cada algoritmo aceita parâmetros que podem ser usados para personalizar o comportamento do algoritmo e ajustar os resultados do modelo. Para obter uma descrição de como usar cada parâmetro, consulte os tópicos a seguir:

O tópico para cada tipo algoritmo também lista as funções de previsão que podem ser usadas com modelos com base em algoritmo.

AUTO_DETECT_PERIODICITY

Referência técnica do algoritmo MTS

CLUSTER_COUNT

Referência técnica do algoritmo Microsoft Clustering

Referência técnica do algoritmo MSC

CLUSTER_SEED

Referência técnica do algoritmo Microsoft Clustering

CLUSTERING_METHOD

Referência técnica do algoritmo Microsoft Clustering

COMPLEXITY_PENALTY

Referência técnica do algoritmo Árvores de Decisão da Microsoft