Estruturas de mineração (Analysis Services – Mineração de dados)
A estrutura de mineração define os dados a partir dos quais os modelos de mineração são criados. Ela especifica a exibição da fonte de dados, o número e tipo de colunas e uma partição opcional nos conjuntos de treinamento e teste. Uma única estrutura de mineração pode oferecer suporte a vários modelos de mineração que compartilham o mesmo domínio. O diagrama a seguir mostra a relação da estrutura de mineração de dados com a fonte de dados e com os modelos de mineração de dados que a compõe.
A estrutura de mineração apresentada neste diagrama tem como base uma fonte de dados que contém diversas tabelas ou exibições unidas no campo CustomerID. Uma tabela contém informações sobre os clientes, como região geográfica, idade, renda e sexo, enquanto que a tabela aninhada relacionada contém diversas linhas com informações adicionais sobre cada cliente, como o tipo de produto adquirido. O diagrama mostra que vários modelos podem ser criados na mesma estrutura de mineração e que os modelos podem usar colunas diferentes da estrutura.
Modelo 1 Usa CustomerID, Income, Age e Region e filtra os dados em Region.
Modelo 2 Usa CustomerID, Income, Age e Region e filtra os dados em Age.
Modelo 3 Usa CustomerID, Age, Gender e a tabela aninhada, sem filtro.
Como os modelos usam colunas diferentes para entrada e, além disso, dois modelos restringem ainda mais os dados que são usados no modelo com a aplicação de um filtro, os modelos podem ter resultados bem diferentes, mesmo que tenham como base os mesmos dados. Observe que a coluna CustomerID é obrigatória em todos os modelos, pois ela é a única coluna disponível que pode ser usada como chave do caso.
Esta seção explica a arquitetura básica de estruturas de mineração de dados: como você define uma estrutura de mineração, como você a popula com dados e como você a usa para criar modelos. Para obter mais informações sobre como gerenciar ou exportar estruturas de mineração de dados existentes, consulte Gerenciamento de soluções de mineração de dados e objetos.
Definindo uma estrutura de mineração
A configuração de uma estrutura de mineração de dados inclui as seguintes etapas:
Definir uma fonte de dados.
Selecionar colunas de dados para incluir na estrutura (nem todas as colunas precisam ser adicionadas ao modelo) e definindo uma chave.
Definir uma chave para a estrutura, incluindo a chave para a tabela aninhada, se aplicável.
Especifique se os dados de origem devem estar separados em um conjunto de treinamento e um conjunto de teste. Esta etapa é opcional.
Processe a estrutura.
Essas etapas são descritas mais detalhadamente nas seções a seguir.
Fontes de dados para estruturas de mineração
Quando você define uma estrutura de mineração, você usa colunas que estão disponíveis em uma exibição da fonte de dados existente. Uma exibição de fonte de dados é um objeto compartilhado que permite que você combine várias fontes de dados. As fontes de dados originais não são visíveis a aplicativos cliente e você pode usar as propriedades da exibição da fonte de dados para modificar tipos de dados, criar agregações, ou designar um alias para as colunas.
Se você criar vários modelos de mineração a partir da mesma estrutura de mineração, os modelos poderão usar colunas diferentes da estrutura. Por exemplo, você pode criar uma única estrutura e, em seguida, criar uma árvore de decisão separada e modelos clustering dele, com cada modelo usando colunas diferentes e prevendo atributos diferentes.
Além disso, cada modelo pode usar as colunas da estrutura de modos diferentes. Por exemplo, sua exibição da fonte de dados pode conter uma coluna de Receita que você pode guardar de modos diferentes para modelos diferentes.
A estrutura de mineração de dados armazena a definição da fonte de dados e as colunas nela na forma de associações para os dados de origem. Para obter mais informações sobre associações de fonte de dados, consulte Fontes de dados e associações (Multidimensional do SSAS). No entanto, observe que você também pode criar uma estrutura de mineração de dados sem associá-la a uma fonte de dados específica usando a instrução DMX CREATE MINING STRUCTURE (DMX ).
Colunas da estrutura de mineração
Os blocos de construção da estrutura de mineração são as colunas da estrutura de mineração, que descrevem os dados que a fonte de dados contém. Essas colunas contêm informações como tipo de dados, tipo de conteúdo e como os dados são distribuídos. A estrutura de mineração não contém informações sobre como as colunas são usadas para um modelo de mineração específico ou sobre o tipo de algoritmo usado para criar um modelo; essas informações são definidas no próprio modelo de mineração.
Uma estrutura de mineração também pode conter tabelas aninhadas. Uma tabela aninhada representa uma relação um para muitos entre a entidade de um caso e seus atributos relacionados. Por exemplo, se as informações que descrevem o cliente residirem em uma tabela, e as compras do cliente residirem em outra tabela, você poderá usar tabelas aninhadas para combinar as informações em um único caso. O identificador de cliente é a entidade, e as compras são os atributos relacionados. Para obter mais informações sobre quando usar tabelas aninhadas, consulte Tabelas aninhadas (Analysis Services – Mineração de Dados).
Para criar um modelo de mineração de dados no SSDT (SQL Server Data Tools), você deve primeiro criar uma estrutura de mineração de dados. O Assistente de Mineração de Dados o guia pelo processo de criação de uma estrutura de mineração, seleção de dados e adição de um modelo de mineração.
Se você criar um modelo de mineração usando DMX (Data Mining Extensions), poderá especificar o modelo e as colunas nele, e o DMX criará automaticamente a estrutura de mineração necessária. Para obter mais informações, consulte CREATE MINING MODEL (DMX).
Para obter mais informações, consulte Colunas da estrutura de mineração.
Dividindo os dados em conjuntos de treinamento e de teste
Quando você define os dados da estrutura de mineração, você também pode especificar que alguns deles devem ser usados para treinamento e outros para teste. Portanto, não é mais necessário separar seus dados antes de criar uma estrutura de mineração de dados. Em vez disso, enquanto você cria seu modelo, pode especificar que uma determinada porcentagem dos dados são para teste e que o restante deve ser usado para treinamento ou pode especificar que um determinado número de casos deve ser usado como conjunto de dados de teste. As informações sobre os conjuntos de dados de treinamento e teste são armazenadas em cache com a estrutura de mineração e, como resultado, o mesmo conjunto de teste pode ser usado com todos os modelos baseados nessa estrutura,
Para obter mais informações, consulte Training and Testing Data Sets.
Habilitando o detalhamento
Você pode adicionar colunas à estrutura de mineração mesmo que você não pretenda usá-la em um modelo de mineração específico. Isso será útil, por exemplo, se você desejar recuperar os endereços de email de clientes em um modelo de clustering, sem usar o endereço de email durante o processo de análise. Para ignorar uma coluna durante a fase de análise e previsão, você a adiciona à estrutura, mas não especifica um uso para a coluna, ou define o sinalizador de uso como Ignorar. Os dados sinalizados dessa maneira podem ainda ser usados em consultas se o detalhamento tiver sido habilitado no modelo de mineração e se você tiver as permissões apropriadas. Por exemplo, você pode examinar os clusters resultantes da análise de todos os clientes, e então usar uma consulta de detalhamento para obter os nomes e endereços de email de clientes em um cluster específico, mesmo que essas colunas de dados não tenham sido usadas para criar o modelo.
Para obter mais informações, consulte Consultas de detalhamento (mineração de dados).
Processando estruturas de mineração
Uma estrutura de mineração é apenas um contêiner de metadados até ser processado. Quando você processa uma estrutura de mineração, o Analysis Services cria um cache que armazena estatísticas sobre os dados, informações sobre como todos os atributos contínuos são diferenciados e outras informações usadas posteriormente por modelos de mineração. O próprio modelo de mineração não armazena estas informações de resumo, mas referencia as informações que foram armazenadas em cache quando a estrutura de mineração foi processada. No entanto, você não precisa reprocessar a estrutura cada vez que adiciona um novo modelo a uma estrutura existente; você poderá processar somente o modelo.
Você pode optar por descartar este cache depois de processar, se o cache for muito grande ou você desejar remover dados detalhados. Se não quiser que os dados sejam armazenados em cache, poderá alterar a propriedade CacheMode
da estrutura de mineração como ClearAfterProcessing
. Isso destruirá o cache depois que qualquer modelo for processado. A definição da propriedade CacheMode
como ClearAfterProcessing
desabilitará o detalhamento do modelo de mineração.
No entanto, depois de destruir o cache, você não será capaz de adicionar novos modelos à estrutura de mineração. Ao adicionar um novo modelo de mineração à estrutura, ou alterar as propriedades de modelos existentes, você precisará reprocessar a estrutura de mineração primeiro. Para obter mais informações, consulte Requisitos e considerações de processamento (mineração de dados).
Exibindo estruturas de mineração
Você não pode usar visualizadores para procurar dados em uma estrutura de mineração. No entanto, no SQL Server Data Tools (SSDT), você pode usar a guia Estrutura de Mineração do Designer de Mineração de Dados para exibir as colunas de estrutura e suas definições. Para obter mais informações, consulte Designer de Mineração de Dados.
Se quiser revisar os dados na estrutura de mineração, poderá criar consultas usando DMX (Data Mining Extensions). Por exemplo, a instrução SELECT * FROM <structure>.CASES
retorna todos os dados da estrutura de mineração. Para recuperar essas informações, a estrutura de mineração deve ter sido processada e os resultados desse processamento devem ter sido armazenados em cache.
A instrução SELECT * FROM <model>.CASES
retorna as mesmas colunas, mas apenas para os casos de um determinado modelo. Para obter mais informações, consulte Estrutura SELECT FROM<>. MODELO CASES e SELECT FROM<>. CASES (DMX).
Usando modelos de mineração de dados com estruturas de mineração
Um modelo de mineração de dados aplica um algoritmo de modelo de mineração aos dados que são representados por uma estrutura de mineração. Um modelo de mineração é um objeto que pertence a uma estrutura de mineração específica e herda todos os valores de propriedades definidas pela estrutura de mineração. O modelo pode usar todas as colunas contidas na estrutura de mineração ou um subconjunto das colunas. Você pode adicionar várias cópias de uma coluna de estrutura a uma estrutura. Você também pode adicionar várias cópias de uma coluna de estrutura a um modelo e atribuir nomes diferentes ou aliasesa cada coluna de estrutura do modelo. Para obter mais informações sobre colunas de estrutura de nome alternativo, consulte Criar um alias para uma coluna de modelo e Propriedades do modelo de mineração.
Para obter mais informações sobre a arquitetura de modelos de mineração de dados, consulte Modelos de mineração (Analysis Services – Mineração de dados).
Related Tasks
Use os links fornecidos aqui para saber mais sobre como definir, gerenciar e usar estruturas de mineração.
Tarefas | Links |
---|---|
Trabalhar com estruturas de mineração relacionais | Criar uma nova estrutura de mineração relacional Adicionar uma tabela aninhada a uma estrutura de mineração |
Trabalhar com estruturas de mineração com base em cubos OLAP | Criar uma nova estrutura de mineração OLAP Filtrar o cubo de origem para uma estrutura de mineração |
Trabalhar com colunas em uma estrutura de mineração | Adicionar colunas a uma estrutura de mineração Remover colunas de uma estrutura de mineração |
Alterar ou consultar dados e propriedades da estrutura de mineração | Alterar as propriedades de uma estrutura de mineração |
Trabalhar com as fontes de dados subjacentes e atualizar dados de origem | Editar a exibição da fonte de dados usada para a Estrutura de Mineração Processar uma estrutura de mineração |
Consulte Também
Objetos de banco de dados (Analysis Services – Dados Multidimensionais)
Modelos de mineração (Analysis Services – Mineração de Dados)