Compartilhar via


Métodos de discretização (mineração de dados)

Aplica-se a: SQL Server 2019 e anteriores do Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

A mineração de dados foi preterida no SQL Server 2017 Analysis Services e agora foi descontinuada no SQL Server 2022 Analysis Services. A documentação não foi atualizada para recursos preteridos e descontinuados. Para saber mais, confira Compatibilidade com versões anteriores do Analysis Services.

Alguns algoritmos usados para criar modelos de mineração de dados em SQL Server SQL Server Analysis Services exigem tipos de conteúdo específicos para funcionar corretamente. Por exemplo, o algoritmo Microsoft Naive Bayes não pode usar colunas contínuas como entrada e não pode prever valores contínuos. Além disso, algumas colunas podem conter tantos valores que o algoritmo não pode identificar facilmente os padrões interessantes nos dados dos quais criar um modelo.

Nesses casos, é possível discretizar os dados nas colunas de modo a permitir o uso dos algoritmos para produzir um modelo de mineração. Discretização é o processo de colocar valores em buckets de modo que haja um número limitado de possíveis estados. Os próprios blocos são tratados como valores ordenados e discretos. Você pode discretizar tanto as colunas numéricos quanto as colunas de cadeia de caracteres.

Há vários métodos que você pode usar para discretizar dados. Se sua solução de mineração de dados usar dados relacionais, será possível controlar o número de buckets usados para agrupamento de dados com a definição do valor da propriedade DiscretizationBucketCount . O número padrão de recipientes é 5.

Se sua solução de mineração de dados usar dados de um cubo OLAP (Processamento Analítico Online), o algoritmo de mineração de dados calculará automaticamente o número de buckets a serem gerados usando a seguinte equação, em que n é o número de valores distintos de dados na coluna:

Number of Buckets = sqrt(n)

Se você não quiser que SQL Server Analysis Services calcule o número de buckets, poderá usar a DiscretizationBucketCount propriedade para especificar manualmente o número de buckets.

A tabela a seguir descreve os métodos que você pode usar para diferenciar dados em SQL Server Analysis Services.

Método de discretização Descrição
AUTOMÁTICO SQL Server Analysis Services determina qual método de discretização usar.
CLUSTERS O algoritmo divide os dados em grupos por meio de amostragem dos dados de treinamento, inicializando um número aleatório de pontos e em seguida executando várias interações do algoritmo Microsoft Clustering usando o método de clustering Expectation Maximization (EM). O método CLUSTERS é útil pois trabalha em qualquer curva de distribuição. Porém, requer mais tempo de processamento que os demais métodos de discretização.

Esse método pode ser usado apenas com colunas numéricas.
EQUAL_AREAS O algoritmo divide os dados em grupos que contenham um número igual de valores. Esse método é usado mais na distribuição normal das curvas, mas não funciona corretamente se a distribuição incluir um grande número de valores que ocorre em um grupo estreito em dados contínuos. Por exemplo, se a metade dos itens tiver um custo zero, a metade dos dados ocorrerá em um único ponto na curva. Nessa distribuição, o método quebra os dados em uma tentativa de estabelecer uma discretização igual em várias áreas. Isso produz uma representação inexata dos dados.

Comentários

  • Você pode usar o método EQUAL_AREAS para discretizar cadeias de caracteres.

  • O método CLUSTERS usa um exemplo aleatório de 1000 registros para discretizar os dados. Use o método EQUAL_AREAS se não quiser que o algoritmo realize a amostragem dos dados.

Consulte Também

Tipos de conteúdo (mineração de dados)
Tipos de conteúdo (DMX)
Algoritmos de mineração de dados (Analysis Services – Mineração de Dados)
Estruturas de mineração (Analysis Services – Mineração de dados)
Tipos de dados (Mineração de Dados)
Colunas da estrutura de mineração
Distribuições de colunas (mineração de dados)