Artigo
04/01/2012

Arquitetura lógica (Analysis Services – Mineração de Dados)

A mineração de dados é um processo que envolve a interação de vários componentes. Você acessa fontes de dados em um banco de dados SQL Server ou em qualquer outra fonte de dados para usá-los para treinamento, teste e previsão. É possível definir estruturas e modelos de mineração de dados usando o Business Intelligence Development Studio ou o Visual Studio 2005. Com o SQL Server Management Studio, é possível gerenciar objetos de mineração de dados e criar previsões e consultas. Quando a solução estiver completa, você a implanta em uma instância do Analysis Services.

Soluções e projetos de mineração de dados

Para criar um projeto de mineração de dados, você deve definir fontes de dados, estruturas de mineração de dados e modelos de mineração de dados. O projeto de mineração de dados que você cria também pode conter conjuntos de teste para validar seu modelo. Depois de implantar um projeto no servidor, é possível continuar a desenvolver e testar novos modelos na solução original.

Dados de origem da mineração de dados

Você não precisa usar um cubo ou outra fonte de dados especializada para executar a mineração de dados. A mineração pode ser feita de forma rápida e fácil em tabelas de dados relacionais ou em qualquer outra fonte de dados definida como exibição da fonte de dados do Analysis Services. Os dados usados na mineração de dados não são armazenados na solução de mineração de dados. Apenas as associações são armazenadas. Além disso, os dados podem residir em um banco de dados criado em uma versão anterior do SQL Server, sistema CRM ou mesmo em um arquivo simples. Uma exibição da fonte de dados do Analysis Services permite combinar várias fontes de dados especificando junções entre diversas tabelas. Você também pode adicionar tabelas que têm uma relação muitos para um para criar colunas de tabelas aninhadas.

Quando precisar usar os dados na solução de mineração de dados, o Analysis Services lerá os dados da origem e gerará um cache com agregados e outras informações usadas. É possível manter informações armazenadas em cache e usá-las para criar novos modelos de mineração de dados ou excluí-las para economizar espaço de armazenamento.

Você pode atualizar continuamente sua solução de mineração de dados com novos dados ou encontrar um modelo que funcione bem e implantá-lo da maneira em que está e nunca adicionar novos dados.

O SQL Server 2008 Analysis Services também fornece a possibilidade de separar seus dados em conjuntos de treinamento e de teste. Com isso, você poderá testar seus modelos de mineração em um conjunto de dados representativo, selecionado aleatoriamente.

Para obter mais informações sobre criação e uso de fontes de dados e de exibições de fontes de dados no Analysis Services, consulte Definindo fontes de dados (Analysis Services).

Estruturas de mineração de dados

Uma estrutura de mineração de dados é uma estrutura de dados lógica que define o domínio de dados do qual modelos de mineração são criados. Uma única estrutura de mineração pode oferecer suporte a vários modelos de mineração que compartilham o mesmo domínio. A estrutura de mineração de dados também pode ser particionada em um conjunto de teste e de treinamento. Para isso, especifique uma porcentagem ou quantidade de dados como um HOLDOUT. Esse particionamento pode ser feito automaticamente quando você define a estrutura de mineração de dados.

Para obter mais informações, consulte Estruturas de mineração (Analysis Services – Mineração de dados).

Uma estrutura de mineração de dados pode conter tabelas aninhadas. Uma tabela aninhada fornece detalhes adicionais sobre o caso modelado na tabela de dados primários. Para obter mais informações, consulte Tabelas aninhadas (Analysis Services - Mineração de Dados)

Modelos de mineração de dados

Um modelo de mineração de dados representa uma combinação de dados, um algoritmo de mineração de dados e uma coleção de configurações de parâmetros e filtros que afetam os dados usados e como eles são processados. Para obter mais informações, consulte Modelos de mineração (Analysis Services – Mineração de Dados).

Você pode definir um modelo de mineração de dados usando a linguagem DMX (Data Mining Extensions) ou o Assistente de Mineração de Dados no BI Development Studio. Para obter mais informações sobre como usar o Assistente de Mineração de Dados, consulte Assistente de Mineração de Dados (Analysis Services - Mineração de dados). Para mais informações sobre como usar DMX, consulte Referência DMX (Data Mining Extensions).

Depois de definir a estrutura do modelo de mineração, você o processa, populando a estrutura vazia com os padrões que descrevem o modelo. Isso é conhecido como treinamento do modelo. Os padrões são definidos ao passar os dados originais por um algoritmo matemático. Você pode usar parâmetros para ajustar cada algoritmo. Para obter mais informações sobre como selecionar um algoritmo de mineração de dados, consulte Algoritmos de mineração de dados (Analysis Services – Mineração de Dados). Para obter mais informações sobre como definir parâmetros em algoritmos de mineração de dados individuais para ajustar os resultados de um modelo, consulte Personalizando um modelo de mineração de dados (Analysis Services – Mineração de dados).

À medida que cria novos modelos de mineração de dados, você os testa interativamente ao fazer previsões e, em seguida, faz alterações para melhorar os resultados. Essas alterações podem englobar a inclusão de mais dados ou a alteração dos parâmetros do modelo para conseguir um melhor ajuste dos dados. Para obter informações sobre como testar a precisão de previsões, consulte Validando modelos de mineração de dados [Analysis Services - Mineração de Dados].

Implantação

O objetivo final do desenvolvimento da mineração de dados é a criação de um modelo que possa ser utilizado por usuários finais e analistas para fazer previsões e executar análises detalhadas. Portanto, quando você ficar satisfeito com os resultados gerados pelo modelo, poderá implantá-lo em um ambiente de produção. No ambiente de produção, os modelos de mineração podem ser usados para vários propósitos, dependendo das suas necessidades. A lista a seguir fornece alguns exemplos de tarefas que você pode executar usando um modelo de mineração de dados:

Use modelos para criar previsões. Depois, essas previsões poderão ser usadas para tomar decisões nos negócios. O SQL Server fornece a linguagem DMX, que pode ser usada para criar consultas de previsão, e o Construtor de Consultas de Previsão para ajudá-lo a criar as consultas.
Incorpore funcionalidade de mineração de dados diretamente em um aplicativo. Você pode incluir AMO (Objetos de Gerenciamento de Análise) ou um assembly que contém um conjunto de objetos que seu aplicativo pode usar para criar, alterar, processar e excluir estruturas e modelos de mineração. Como alternativa, você pode enviar mensagens XMLA (XML for Analysis) diretamente para uma instância do Analysis Services.
Use o Integration Services para criar um pacote no qual um modelo de mineração é usado para separar dados recebidos, de forma inteligente, em diversas tabelas. Por exemplo, se um banco de dados for atualizado continuamente com clientes potenciais, será possível usar um modelo de mineração juntamente com o Integration Services para dividir os dados recebidos entre os clientes que têm probabilidade de adquirir um produto e os que têm probabilidade em não adquirir o produto.
Crie um relatório que permita que os usuários consultem diretamente um modelo de mineração existente. Os usuários talvez queiram criar previsões diferentes, ou os analistas queiram acessar diretamente o conteúdo do modelo de mineração. Portanto, eles podem explorar padrões interessantes nos dados.

A atualização do modelo é parte da estratégia de implantação. À medida que mais dados chegam à organização, você deve reprocessar os modelos e, com isso, melhorar sua eficácia. Para obter mais informações, consulte Implantação (Analysis Services – Mineração de Dados) e Criando consultas de previsão DMX.