Estruturas de mineração (Analysis Services – Mineração de dados)
A estrutura de mineração define os dados a partir dos quais os modelos de mineração são criados. Ela especifica a exibição da fonte de dados, o número e tipo de colunas e uma partição opcional nos conjuntos de treinamento e teste. Uma única estrutura de mineração pode oferecer suporte a vários modelos de mineração que compartilham o mesmo domínio. O diagrama a seguir mostra a relação da estrutura de mineração de dados com a fonte de dados e com os modelos de mineração de dados que a compõe.
A estrutura de mineração apresentada neste diagrama tem como base uma fonte de dados que contém diversas tabelas ou exibições unidas no campo CustomerID. Uma tabela contém informações sobre os clientes, como região geográfica, idade, renda e sexo, enquanto que a tabela aninhada relacionada contém diversas linhas com informações adicionais sobre cada cliente, como o tipo de produto adquirido. O diagrama mostra que vários modelos podem ser criados na mesma estrutura de mineração e que os modelos podem usar colunas diferentes da estrutura.
Modelo 1 Usa CustomerID, Income, Age e Region e filtra os dados em Region.
Modelo 2 Usa CustomerID, Income, Age e Region e filtra os dados em Age.
Modelo 3 Usa CustomerID, Age, Gender e a tabela aninhada, sem filtro.
Como os modelos usam colunas diferentes para entrada e, além disso, dois modelos restringem ainda mais os dados que são usados no modelo com a aplicação de um filtro, os modelos podem ter resultados bem diferentes, mesmo que tenham como base os mesmos dados. Observe que a coluna CustomerID é obrigatória em todos os modelos, pois ela é a única coluna disponível que pode ser usada como chave do caso.
Esta seção explica a arquitetura básica de estruturas de mineração de dados. Para obter mais informações sobre como criar, gerenciar, modificar ou exibir estruturas de mineração de dados, consulte Gerenciando estruturas e modelos de mineração de dados.
Definindo estruturas de mineração
A configuração de uma estrutura de mineração de dados inclui as seguintes etapas:
Definir uma fonte de dados.
Selecionar colunas de estrutura e definir uma chave.
Particionar dados de origem em um conjunto de treinamento e conjunto de teste opcional.
Processar a estrutura.
Fontes de dados para estruturas de mineração
Quando você define uma estrutura de mineração, você usa colunas que estão disponíveis em uma exibição da fonte de dados existente. Uma exibição de fonte de dados permite que você combine várias fontes de dados e use-as em uma única fonte na estrutura ou modelo de mineração criado. As fontes de dados originais não estão visíveis para aplicativos cliente.
Para obter mais informações sobre exibições de fonte de dados, consulte Exibições de fontes de dados (Analysis Services – Dados Multidimensional).
Se você criar vários modelos de mineração a partir da mesma estrutura de mineração, os modelos poderão usar colunas diferentes da estrutura e usarão as colunas de diferentes maneiras. Por exemplo, você pode criar uma única estrutura e, em seguida, criar uma árvore de decisão separada e modelos clustering dele, com cada modelo usando colunas diferentes e prevendo atributos diferentes.
A estrutura de mineração de dados armazena apenas as associações na fonte de dados. Também é possível criar uma estrutura de mineração de dados sem associação a uma fonte de dados específica; basta usar a instrução DMX CRIAR UMA ESTRUTURA DE MINERAÇÃO (DMX).
Colunas da estrutura de mineração
Os blocos de construção da estrutura de mineração são as colunas da estrutura de mineração, que descrevem os dados que a fonte de dados contém. Essas colunas contêm informações como tipo de dados, tipo de conteúdo e como os dados são distribuídos. A estrutura de mineração não contém informações sobre como as colunas são usadas para um modelo de mineração específico ou sobre o tipo de algoritmo usado para criar um modelo; essas informações são definidas no próprio modelo de mineração.
Uma estrutura de mineração também pode conter tabelas aninhadas. Uma tabela aninhada representa uma relação um para muitos entre a entidade de um caso e seus atributos relacionados. Por exemplo, se as informações que descrevem o cliente residirem em uma tabela, e as compras do cliente residirem em outra tabela, você poderá usar tabelas aninhadas para combinar as informações em um único caso. O identificador de cliente é a entidade, e as compras são os atributos relacionados. Para obter mais informações sobre quando devem ser usadas as tabelas aninhadas, consulte Tabelas aninhadas (Analysis Services - Mineração de Dados).
Para criar um modelo de mineração de dados no Business Intelligence Development Studio, você deve primeiramente criar uma estrutura de mineração de dados. O Assistente de Mineração de Dados o guia pelo processo de criação de uma estrutura de mineração, seleção de dados e adição de um modelo de mineração.
Se você criar um modelo de mineração usando DMX (Data Mining Extensions), poderá especificar o modelo e as colunas nele, e o DMX criará automaticamente a estrutura de mineração necessária. Para obter mais informações, consulte CRIAR UM MODELO DE MINERAÇÃO (DMX).
Para obter mais informações, consulte Colunas da estrutura de mineração.
Dados de teste e treinamento
Quando você define os dados da estrutura de mineração, você também pode especificar que alguns deles devem ser usados para treinamento e outros para teste. Portanto, não é mais necessário particionar seus dados antes de criar uma estrutura de mineração de dados. Você pode especificar que uma determinada porcentagem dos dados são para teste e que o restante deve ser usado para treinamento ou pode especificar que um determinado número de casos deve ser usado como conjunto de dados de teste. As informações de partição são armazenadas em cache com a estrutura de mineração; portanto, o mesmo conjunto de teste pode ser usado com todos os modelos com base nessa estrutura.
Para obter mais informações, consulte Particionando dados em conjuntos de treinamento e teste (Analysis Services - Mineração de dados).
Habilitando o detalhamento
Você pode adicionar colunas à estrutura de mineração mesmo que você não pretenda usá-la em um modelo de mineração específico. Se você não especificar um uso para a coluna, a coluna será ignorada para análise e previsão. Porém, ela ainda poderá ser usada em consultas, habilitando o detalhamento no modelo de mineração. Por exemplo, se você tiver as permissões adequadas, poderá fazer o detalhamento a partir de um determinado resultado em um modelo de mineração para recuperar informações detalhadas sobre os casos no nó e até mesmo acessar as colunas de estrutura que não foram usadas no modelo.
Para obter mais informações, consulte Usando a análise nos modelos de mineração e nas estruturas de mineração (Analysis Services – Mineração de dados).
Processando estruturas de mineração
Uma estrutura de mineração é apenas um contêiner de metadados até ser processado. Quando você processa uma estrutura de mineração, o Analysis Services cria um cache local que armazena estatísticas sobre os dados, informações sobre como qualquer atributo contínuo é diferenciado e outras informações que serão usadas posteriormente pelos modelos de mineração. O próprio modelo de mineração não armazena nenhum dado, mas referencia as informações no cache. Portanto, ao processar um modelo de mineração, o cache de estrutura deve estar disponível. Caso contrário, a estrutura terá de ser reprocessada antes que o modelo possa ser criado.
Se não quiser que os dados sejam armazenados em cache, poderá alterar a propriedade CacheMode da estrutura de mineração como ClearAfterProcessing. Isso destruirá o cache depois que qualquer modelo for processado. A definição da propriedade CacheMode como ClearAfterProcessing desabilitará o detalhamento do modelo de mineração.
Contanto que os dados armazenados em cache estejam disponíveis, a estrutura de mineração não precisará ser reprocessada quando você adicionar um novo modelo de mineração a ela. Você poderá processar apenas o modelo. Para obter mais informações, consulte Processando objetos de mineração de dados.
Exibindo estruturas de mineração
Você não pode usar visualizadores para procurar dados em uma estrutura de mineração. No entanto, no Business Intelligence Development Studio, é possível usar a guia Estrutura de Mineração do Designer de Mineração de Dados para exibir as colunas de estrutura e suas definições. Para obter mais informações, consulte Designer de mineração de dados.
Se quiser revisar os dados na estrutura de mineração, poderá criar consultas usando DMX (Data Mining Extensions). Por exemplo, a instrução SELECT * FROM <structure>.CASES retorna todos os dados da estrutura de mineração. Para recuperar essas informações, a estrutura de mineração deve ter sido processada e os resultados desse processamento devem ter sido armazenados em cache.
A instrução SELECT * FROM <model>.CASES retorna as mesmas colunas, mas apenas para os casos de um determinado modelo. Para obter mais informações, consulte SELECIONAR A PARTIR DE CASOS DE <structure>. e SELECIONAR A PARTIR DE CASOS DE <modelo> (DMX).
Usando modelos de mineração de dados com estruturas de mineração
Um modelo de mineração de dados aplica um algoritmo de modelo de mineração aos dados que são representados por uma estrutura de mineração. Um modelo de mineração é um objeto que pertence a uma estrutura de mineração específica e herda todos os valores de propriedades definidas pela estrutura de mineração. O modelo pode usar todas as colunas contidas na estrutura de mineração ou um subconjunto das colunas. Você pode adicionar várias cópias de uma coluna de estrutura a uma estrutura. Você também pode adicionar várias cópias de uma coluna de estrutura a um modelo e, em seguida atribuir nomes diferentes ou aliases a cada coluna de estrutura do modelo. Para obter mais informações sobre aliases de colunas de estrutura, consulte Como criar um alias para uma coluna de modelo e Definindo propriedades em um modelo de mineração.
Para obter mais informações sobre a arquitetura de modelos de mineração de dados, consulte Modelos de mineração (Analysis Services – Mineração de Dados).