Compartilhar via


Parâmetros de algoritmo (suplementos de mineração de dados do SQL Server)

Ao executar a mineração de dados usando as Ferramentas de Análise de Tabela para Excel, você não precisa configurar o algoritmo ou parâmetros de mineração de dados; cada ferramenta analisa seus dados e seleciona automaticamente os parâmetros ideais. No entanto, se você quiser modificar o modelo ou criar um modelo de mineração do zero, o Cliente de Mineração de Dados para Excel oferece várias opções para personalização.

  • Crie um modelo de mineração de dados manualmente, clicando em Avançado e, em seguida, clicando em Adicionar Modelo à Estrutura.

  • Use qualquer um dos assistentes de modelagem no Cliente de Mineração de Dados e clique em Parâmetros para controlar o comportamento dos algoritmos de mineração de dados da Microsoft.

  • Clique em Consulta para abrir o assistente modelo de consulta e clique em Avançado para abrir o Editor de Consultas Avançadas de Mineração de Dados. Neste editor, você pode criar modelos usando modelos DMX.

Você também pode modificar o comportamento dos modelos de mineração que já foram criados ou pode filtrar os resultados definindo parâmetros no visualizador de modelos de mineração.

Lista de parâmetros de algoritmo

Todos os algoritmos da Microsoft podem ser personalizados definindo parâmetros. Como as melhores configurações de parâmetro dependem da composição de seus dados, uma explicação completa dos efeitos da alteração de parâmetros está além do escopo deste tópico.

A tabela a seguir lista os parâmetros, descreve sua funcionalidade e fornece links para informações mais técnicas.

Nome do parâmetro Usado em Descrição
DETECÇÃO_AUTOMÁTICA_DE_PERIODICIDADE Algoritmo de Série Temporal da Microsoft Especifica um valor numérico entre 0 e 1 que é usado para detectar a periodicidade. Definir esse valor mais próximo de 1 favorece a descoberta de muitos padrões quase periódicos e a geração automática de dicas de periodicidade. Lidar com muitas pistas de periodicidade provavelmente resultará em tempos de treinamento de modelo significativamente mais longos e modelos mais precisos. Se o valor estiver mais próximo de 0, a periodicidade será detectada apenas para dados fortemente periódicos.

O padrão é 0,6.
CONTAGEM_DE_AGRUPAMENTOS Algoritmo de agrupamento da Microsoft

Algoritmo de Clustering de Sequência da Microsoft
Especifica o número aproximado de clusters a serem criados pelo algoritmo. Se o número aproximado de clusters não puder ser criado a partir dos dados, o algoritmo criará o máximo possível de clusters. Definir o CLUSTER_COUNT como 0 faz com que o algoritmo use heurística para determinar melhor o número de clusters a serem compilados.

O padrão é 10.
CLUSTER_SEED Algoritmo de agrupamento da Microsoft Especifica o número de semente usado para gerar clusters aleatoriamente para o estágio inicial da criação do modelo.

O padrão é 0.
método de agrupamento Algoritmo de agrupamento da Microsoft Especifica o método de clustering para o algoritmo a ser usado. Os seguintes métodos de clustering estão disponíveis: EM escalável (1), EM não escalável (2), K-Means escalável (3) e K-Means não escalável (4).

O padrão é 1.
PENALIDADE_DE_COMPLEXIDADE Algoritmo de Árvores de Decisão da Microsoft

Algoritmo de Série Temporal da Microsoft
Controla o crescimento da árvore de decisão. Um valor baixo aumenta o número de divisões e um valor alto diminui o número de divisões. O valor padrão é baseado no número de atributos de um modelo específico, conforme descrito na seguinte lista:

Para atributos de 1 a 9, o padrão é 0,5.

Para 10 a 99 atributos, o padrão é 0,9.

Para 100 ou mais atributos, o padrão é 0,99.

Observação: em modelos de série temporal, esse parâmetro se aplica somente a modelos criados usando o algoritmo ARTxp ou a modelos mistos.
FORCED_REGRESSOR Algoritmo de Árvores de Decisão da Microsoft

Algoritmo de regressão linear da Microsoft
Força o algoritmo a usar as colunas indicadas como regressores, independentemente da importância das colunas, conforme calculado pelo algoritmo.

Observação: esse parâmetro é usado apenas para árvores de decisão que estão prevendo um atributo contínuo. Por definição, um modelo de regressão linear é um caso especial de árvores de decisão que prevê atributos contínuos. No entanto, qualquer modelo de árvore de decisão pode conter um nó que representa uma fórmula de regressão linear.
MÉTODO_DE_PREVISÃO Algoritmo de Série Temporal da Microsoft Indica se as previsões devem ser feitas usando o algoritmo ARTxp, o algoritmo ARIMA ou uma combinação de ambos.

O padrão é MIXED.
HIDDEN_NODE_RATIO Algoritmo de rede neural da Microsoft Especifica a proporção de neurônios ocultos para neurônios de entrada e saída. A fórmula a seguir determina o número inicial de neurônios na camada oculta:

HIDDEN_NODE_RATIO * SQRT(Total de neurônios de entrada * Neurônios de saída total)

O valor padrão é 4.0.
CONTAGEM_DE_MODELOS_HISTÓRICOS Algoritmo de Série Temporal da Microsoft Especifica o número de modelos históricos que serão criados.

O padrão é 1.
LACUNA_DO_MODELO_HISTÓRICO Algoritmo de Série Temporal da Microsoft Especifica o atraso de tempo entre dois modelos históricos consecutivos. Por exemplo, definir esse valor como g faz com que modelos históricos sejam criados para dados truncados por fatias de tempo em intervalos de g, 2*g, 3*g e assim por diante.

O padrão é 10.
PERCENTUAL_DE_RESERVA Algoritmo de regressão logística da Microsoft

Algoritmo de rede neural da Microsoft
Especifica a porcentagem de casos nos dados de treinamento usados para calcular o erro de retenção, que é usado como parte dos critérios de interrupção durante o treinamento do modelo de mineração.

O valor padrão é 30.

Observação: esse parâmetro é diferente do valor de porcentagem de retenção que se aplica a uma estrutura de mineração.
HOLDOUT_SEED Algoritmo de regressão logística da Microsoft

Algoritmo de rede neural da Microsoft
Especifica um número que é usado para inicializar o gerador pseudo-aleatório quando o algoritmo determina aleatoriamente os dados de validação. Se esse parâmetro for definido como 0, o algoritmo gerará a semente com base no nome do modelo de mineração, para garantir que o conteúdo do modelo permaneça o mesmo durante o reprocessamento.

O valor padrão é 0.

Observação: esse parâmetro é diferente do valor de semente de exclusão que se aplica a uma estrutura de mineração.
SENSIBILIDADE_À_INSTABILIDADE Algoritmo de Série Temporal da Microsoft Controla o ponto em que a variação de previsão excede um determinado limite e o algoritmo ARTxp suprime previsões. O valor padrão é 1.

Observação: esse parâmetro se aplica somente a modelos mistos ou modelos que usam o algoritmo ARTxp.
ATRIBUTOS_MÁXIMOS_DE_ENTRADA Algoritmo de agrupamento da Microsoft

Algoritmo de Árvores de Decisão da Microsoft

Algoritmo de regressão linear da Microsoft

Algoritmo Microsoft Naïve Bayes

Algoritmo de rede neural da Microsoft

Algoritmo de regressão logística da Microsoft
Define o número de atributos de entrada que o algoritmo pode manipular antes de invocar a seleção de recursos. Defina esse valor como 0 para desativar a seleção de recursos.

O padrão é 255.
CONTAGEM_MAXIMA_DE_CONJUNTOS Algoritmo de Associação da Microsoft Especifica o número máximo de conjuntos de itens a serem produzidos. Se nenhum número for especificado, o algoritmo gerará todos os conjuntos de itens possíveis.

O padrão é 200000.
TAMANHO MÁXIMO DO CONJUNTO DE ITENS Algoritmo de Associação da Microsoft Especifica o número máximo de itens permitidos em um conjunto de itens. Definir esse valor como 0 especifica que não há limite para o tamanho do conjunto de itens.

O padrão é 3.
ATRIBUTOS_DE_SAÍDA_MÁXIMA Algoritmo de Árvores de Decisão da Microsoft

Algoritmo de regressão linear da Microsoft

Algoritmo de regressão logística da Microsoft

Algoritmo Microsoft Naïve Bayes

Algoritmo de rede neural da Microsoft
Define o número de atributos de saída que o algoritmo pode manipular antes de invocar a seleção de recursos. Defina esse valor como 0 para desativar a seleção de recursos.

O padrão é 255.
ESTADOS_DE_SEQUÊNCIA_MÁXIMA Algoritmo de Clustering de Sequência da Microsoft Especifica o número máximo de estados que uma sequência pode ter. Definir esse valor como um número maior que 100 pode fazer com que o algoritmo crie um modelo que não forneça informações significativas.

O padrão é 64.
VALOR_MÁXIMO_DA_SÉRIE Algoritmo de Série Temporal da Microsoft Especifica o valor máximo a ser usado para previsões. Esse parâmetro é usado, juntamente com MINIMUM_SERIES_VALUE, para restringir as previsões a algum intervalo esperado. Por exemplo, você pode especificar que a quantidade de vendas prevista para qualquer dia nunca deve exceder o número de produtos no inventário.
ESTADOS_MÁXIMOS Algoritmo de agrupamento da Microsoft

Algoritmo de rede neural da Microsoft

Algoritmo de Clustering de Sequência da Microsoft
Especifica o número máximo de estados de atributo aos quais o algoritmo dá suporte. Se o número de estados que um atributo tem for maior que o número máximo de estados, o algoritmo usará os estados mais populares do atributo e ignorará os estados restantes.

O padrão é 100.
SUPORTE_MÁXIMO Algoritmo de Associação da Microsoft Especifica o número máximo de casos em que um conjunto de itens pode ter suporte. Se esse valor for menor que 1, o valor representará uma porcentagem do total de casos. Se esse valor for maior que 1, o valor representará o número absoluto de casos que podem conter o conjunto de itens.

O padrão é 1.
IMPORTÂNCIA_MÍNIMA Algoritmo de Associação da Microsoft Especifica o limite de importância para as regras de associação. As regras com importância menor que esse valor são filtradas.
TAMANHO_MÍNIMO_DO_CONJUNTO_DE_ITENS Algoritmo de Associação da Microsoft Especifica o número mínimo de itens permitidos em um conjunto de itens.

O padrão é 1.
PROBABILIDADE_MÍNIMA_DE_DEPENDÊNCIA Algoritmo Microsoft Naïve Bayes Especifica a probabilidade mínima de dependência entre os atributos de entrada e saída. Esse valor é usado para limitar o tamanho do conteúdo gerado pelo algoritmo. Essa propriedade pode ser definida de 0 a 1. Valores maiores reduzem o número de atributos no conteúdo do modelo.

O padrão é 0,5.
PROBABILIDADE_MÍNIMA Algoritmo de Associação da Microsoft Especifica a probabilidade mínima de que uma regra seja verdadeira. Por exemplo, definir esse valor como 0,5 especifica que nenhuma regra com menos de 50% de probabilidade é gerada.

O padrão é 0,4.
VALOR_MÍNIMO_SÉRIE Algoritmo de Série Temporal da Microsoft Especifica a restrição inferior para qualquer previsão de série temporal. Os valores previstos nunca serão menores do que essa restrição.
SUPORTE_MÍNIMO Algoritmo de Associação da Microsoft Especifica o número mínimo de casos que devem conter o conjunto de itens antes que o algoritmo gere uma regra. Definir esse valor como menor que 1 especifica o número mínimo de casos como um percentual do total de casos. Definir esse valor como um número inteiro maior que 1 especifica o número mínimo de casos como o número absoluto de casos que devem conter o conjunto de itens. O algoritmo poderá aumentar o valor desse parâmetro, se a memória for limitada.

O padrão é 0,03.
SUPORTE_MÍNIMO Algoritmo de agrupamento da Microsoft Especifica o número mínimo de casos em cada cluster.

O padrão é 1.
SUPORTE_MÍNIMO Algoritmo de Árvores de Decisão da Microsoft Determina o número mínimo de casos de folha necessários para gerar uma divisão em uma árvore de decisão.

O padrão é 10.
SUPORTE_MÍNIMO Algoritmo de Clustering de Sequência da Microsoft Especifica o número mínimo de casos em cada cluster.

O padrão é 10.
SUPORTE_MÍNIMO Algoritmo de Série Temporal da Microsoft Especifica o número mínimo de fatias de tempo necessárias para gerar uma divisão em cada árvore de série temporal.

O padrão é 10.
SUBSTITUIÇÃO_DE_VALOR_FALTANTE Algoritmo de Série Temporal da Microsoft Especifica o método usado para preencher as lacunas nos dados históricos. Por padrão, lacunas irregulares ou bordas irregulares em dados não são permitidas. Os métodos a seguir podem ser usados para preencher lacunas ou bordas irregulares: use o valor anterior, use o valor médio ou use uma constante numérica específica.
MODELANDO_CARDINALIDADE Algoritmo de agrupamento da Microsoft Especifica o número de modelos de exemplo que são construídos durante o processo de clustering.

O padrão é 10.
DICA_DE_PERIODICIDADE Algoritmo de Série Temporal da Microsoft Fornece uma dica para o algoritmo quanto à periodicidade dos dados. Por exemplo, se as vendas variarem por ano e a unidade de medida na série for meses, a periodicidade será de 12. Esse parâmetro usa o formato {n [, n]}, em que n é qualquer número positivo. O n dentro dos colchetes [] é opcional e pode ser repetido com a frequência necessária.

O padrão é {1}.
AMACIAMENTO_DE_PREVISÃO Algoritmo de Série Temporal da Microsoft Controla a combinação de algoritmos de série temporal ARTXP e ARIMA. O valor especificado só é válido quando o parâmetro FORECAST_METHOD é definido como MIXED. Os valores devem estar entre 0 e 1. Se o valor for 0, o modelo usará apenas ARTXP. Se o valor for 1, o modelo usará apenas ARIMA. Um valor mais próximo de 0 recebe um peso maior no ARTXP. Um valor mais próximo de 1 tem um peso maior para o modelo ARIMA.
TAMANHO_DA_AMOSTRA Algoritmo de agrupamento da Microsoft Especifica o número de casos que o algoritmo usa em cada passagem se o parâmetro CLUSTERING_METHOD for definido como um dos métodos de clustering escalonáveis. Definir o parâmetro SAMPLE_SIZE como 0 fará com que todo o conjunto de dados seja clusterizado em uma única passagem. Isso pode causar problemas de memória e desempenho.

O padrão é 50000.
TAMANHO_DA_AMOSTRA Algoritmo de regressão logística da Microsoft

Algoritmo de rede neural da Microsoft
Especifica o número de casos a serem usados para treinar o modelo. O provedor de algoritmo usa esse número ou a porcentagem do total de casos que não estão incluídos no percentual de retenção, conforme especificado pelo parâmetro HOLDOUT_PERCENTAGE, qualquer valor menor.

Em outras palavras, se HOLDOUT_PERCENTAGE for definido como 30, o algoritmo usará o valor desse parâmetro ou um valor igual a 70% do número total de casos, o que for menor.

O padrão é 10000.
MÉTODO_DE_PONTUAÇÃO Algoritmo de Árvores de Decisão da Microsoft Determina o método usado para calcular a pontuação de divisão. As seguintes opções estão disponíveis: (1) Entropia, (2) Bayesiana com K2 Anterior ou (3) Equivalente de Dirichlet Bayesiano (BDE) Anterior.

O padrão é 3.
Método de Divisão (SPLIT_METHOD) Algoritmo de Árvores de Decisão da Microsoft Determina o método usado para dividir o nó. As seguintes opções estão disponíveis: Binário (1), Concluído (2) ou Ambos (3).

O padrão é 3.
TOLERÂNCIA_DE_PARADA Referência técnica do algoritmo de clustering da Microsoft Especifica o valor usado para determinar quando a convergência é alcançada e o algoritmo termina de compilar o modelo. A convergência é alcançada quando a alteração geral nas probabilidades de cluster é menor que a taxa do parâmetro STOPPING_TOLERANCE dividido pelo tamanho do modelo.

O padrão é 10.

Comentários

Para obter detalhes adicionais sobre os algoritmos, consulte manuais online do SQL Server.

Consulte Também

Algoritmos de mineração de dados (suplementos de mineração de dados do SQL Server)