Partilhar via


Tipos de conteúdo (mineração de dados)

Aplica-se a: SQL Server 2019 e anteriores Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

A mineração de dados foi preterida no SQL Server 2017 Analysis Services e agora descontinuada no SQL Server 2022 Analysis Services. A documentação não é atualizada para recursos preteridos e descontinuados. Para saber mais, consulte Compatibilidade com versões anteriores do Analysis Services.

No Microsoft SQL Server SQL Server Analysis Services, pode definir tanto o tipo de dado físico para uma coluna numa estrutura de mineração, como um tipo de conteúdo lógico para a coluna quando usado num modelo,

O tipo de dado determina como os algoritmos processam os dados nessas colunas quando se criam modelos de mineração. Definir o tipo de dado de uma coluna fornece ao algoritmo informação sobre o tipo de dados nas colunas e como processar os dados. Cada tipo de dado no SQL Server Analysis Services suporta um ou mais tipos de conteúdo para mineração de dados.

O tipo de conteúdo descreve o comportamento do conteúdo que a coluna contém. Por exemplo, se o conteúdo de uma coluna se repetir num intervalo específico, como os dias da semana, pode especificar o tipo de conteúdo dessa coluna como cíclico.

Alguns algoritmos requerem tipos de dados e conteúdos específicos para funcionarem corretamente. Por exemplo, o algoritmo Naive Bayes da Microsoft não pode usar colunas contínuas como entrada, nem pode prever valores contínuos. Alguns tipos de conteúdo, como a Sequência de Teclas, são usados apenas por um algoritmo específico. Para uma lista dos algoritmos e dos tipos de conteúdo que cada um suporta, consulte Algoritmos de Mineração de Dados (Serviços de Análise - Mineração de Dados).

A lista seguinte descreve os tipos de conteúdo utilizados na mineração de dados e identifica os tipos de dados que suportam cada tipo.

Discreto

Discreto significa que a coluna contém um número finito de valores sem contínuo entre valores. Por exemplo, uma coluna de género é uma coluna típica de atributo discreto, no sentido em que os dados representam um número específico de categorias.

Os valores numa coluna de atributos discretos não podem implicar ordenação, mesmo que os valores sejam numéricos. Além disso, mesmo que os valores usados para a coluna discreta sejam numéricos, valores fracionários não podem ser calculados. Os códigos de área telefónica são um bom exemplo de dados discretos que são numéricos.

O tipo de conteúdo discreto é suportado por todos os tipos de dados de mineração de dados.

Contínuo

Contínuo significa que a coluna contém valores que representam dados numéricos numa escala que permite valores intermédios. Ao contrário de uma coluna discreta, que representa dados finitos e enumeráveis, uma coluna contínua representa medições escaláveis, e é possível que os dados contenham um número infinito de valores fracionários. Uma coluna de temperaturas é um exemplo de coluna de atributos contínua.

Quando uma coluna contém dados numéricos contínuos e sabe como os dados devem ser distribuídos, pode potencialmente melhorar a precisão da análise especificando a distribuição esperada dos valores. Especificas a distribuição das colunas ao nível da estrutura de mineração. Portanto, a definição aplica-se a todos os modelos baseados na estrutura. Para mais informações, consulte Distribuições de Colunas (Mineração de Dados).

O tipo de conteúdo contínuo é suportado pelos seguintes tipos de dados: Data,Duplo e Longo.

Discretizado

Discretização é o processo de colocar valores de um conjunto contínuo de dados em baldes para que haja um número limitado de valores possíveis. Só podes discretizar dados numéricos.

Assim, o tipo de conteúdo discretizado indica que a coluna contém valores que representam grupos, ou baldes, de valores derivados de uma coluna contínua. Os buckets são tratados como valores ordenados e discretos.

Pode discretizar os seus dados manualmente, para garantir que obtém os buckets que pretende, ou pode usar os métodos de discretização fornecidos no SQL Server Analysis Services. Alguns algoritmos realizam discretização automaticamente. Para mais informações, veja Alterar a Discretização de uma Coluna num Modelo de Mineração.

O tipo de conteúdo discretizado é suportado pelos seguintes tipos de dados: Data, Duplo, Longo e Texto.

Key

O tipo de conteúdo chave significa que a coluna identifica de forma única uma linha. Numa tabela de casos, normalmente a coluna chave é um identificador numérico ou de texto. Define o tipo de conteúdo como chave para indicar que a coluna não deve ser usada para análise, apenas para registos de rastreamento.

As tabelas aninhadas também têm chaves, mas a utilização da chave da tabela aninhada é um pouco diferente. Define o tipo de conteúdo como chave numa tabela aninhada se a coluna for o atributo que pretende analisar. Os valores na chave da tabela aninhada devem ser únicos para cada caso, mas podem existir duplicados em todo o conjunto de casos.

Por exemplo, se estiver a analisar os produtos que os clientes compram, deve definir o tipo de conteúdo como chave para a coluna CustomerID na tabela de casos de exemplo, e definir o tipo de conteúdo novamente como chave para a coluna Produtos Comprados na tabela aninhada.

Observação

Tabelas aninhadas estão disponíveis apenas se utilizar dados de uma fonte de dados externa definida como uma vista de origem de dados dos Serviços de Análise.

Este tipo de conteúdo é suportado pelos seguintes tipos de dados: Data,Duplo, Longo e Texto.

Sequência de Teclas

O tipo de conteúdo da sequência chave só pode ser usado em modelos de agrupamento de sequências. Quando defines o tipo de conteúdo para sequência de chaves, indica que a coluna contém valores que representam uma sequência de eventos. Os valores estão ordenados, mas não têm de estar a uma distância igual entre si.

Este tipo de conteúdo é suportado pelos seguintes tipos de dados: Duplo, Longo, Texto e Data.

Hora Chave

O tipo de conteúdo temporal chave só pode ser usado em modelos de séries temporais. Quando defines o tipo de conteúdo para a hora-chave, indica que os valores estão ordenados e representam uma escala temporal.

Este tipo de conteúdo é suportado pelos seguintes tipos de dados: Double, Long e Date.

Table

O tipo de conteúdo da tabela indica que a coluna contém outra tabela de dados, com uma ou mais colunas e uma ou mais linhas. Para qualquer linha específica na tabela de casos, esta coluna pode conter múltiplos valores, todos relacionados com o registo de caso principal. Por exemplo, se a tabela principal de casos contiver uma lista de clientes, pode haver várias colunas que contenham tabelas aninhadas, como uma coluna ProdutosCompridos , onde a tabela aninhada lista produtos comprados por esse cliente no passado, e uma coluna de Hobbies que lista os interesses do cliente.

O tipo de dado desta coluna é sempre Tabela.

Cíclico

O tipo de conteúdo cíclico significa que a coluna contém valores que representam um conjunto ordenado cíclico. Por exemplo, os dias numerados da semana são um conjunto cíclico ordenado, porque o dia número um sucede ao dia número sete.

Colunas cíclicas são consideradas ordenadas e discretas em termos de tipo de conteúdo.

Este tipo de conteúdo é suportado por todos os tipos de dados de mineração de dados no SQL Server Analysis Services. No entanto, a maioria dos algoritmos trata valores cíclicos como valores discretos e não realiza processamento especial.

Encomendado

O tipo de conteúdo Ordenado também indica que a coluna contém valores que definem uma sequência ou ordem. No entanto, neste tipo de conteúdo, os valores usados para ordenação não implicam qualquer relação de distância ou magnitude entre os valores do conjunto. Por exemplo, se uma coluna de atributos ordenados contém informação sobre níveis de habilidade por ordem de um a cinco, não há informação implícita na distância entre os níveis de habilidade; Um nível de habilidade de cinco não é necessariamente cinco vezes melhor do que um nível de habilidade de um.

As colunas ordenadas de atributos são consideradas discretas em termos do tipo de conteúdo.

Este tipo de conteúdo é suportado por todos os tipos de dados de mineração de dados no SQL Server Analysis Services. No entanto, a maioria dos algoritmos trata valores ordenados como valores discretos e não realiza processamento especial.

Classificado

Para além dos tipos de conteúdo anteriores, que são de uso comum em todos os modelos, para alguns tipos de dados pode usar colunas classificadas para definir tipos de conteúdo. Para mais informações sobre colunas classificadas, consulte Colunas Classificadas (Mineração de Dados).

Ver também

Tipos de Conteúdo (DMX)
Tipos de Dados (Mineração de Dados)
Tipos de Dados (DMX)
Alterar as Propriedades de uma Estrutura de Mineração
Colunas da Estrutura Mineira