Partilhar via


Criar uma estrutura de mineração relacional

A maioria dos modelos de mineração de dados se baseia em fontes de dados relacionais. As vantagens de criar um modelo de mineração de dados relacionais são que você pode montar dados ad hoc e treinar e atualizar um modelo sem a complexidade de criar um cubo.

Uma estrutura de mineração relacional pode extrair dados de fontes diferentes. Os dados brutos podem ser armazenados em tabelas, arquivos ou sistemas de banco de dados relacionais, desde que os dados possam ser definidos como parte da exibição da fonte de dados. Por exemplo, você deve usar uma estrutura de mineração relacional se os dados estiverem no Excel, em um data warehouse do SQL Server ou no banco de dados de relatórios do SQL Server ou em fontes externas acessadas por meio dos provedores OLE DB ou ODBC.

Este tópico fornece uma visão geral de como usar o Assistente de Mineração de Dados para criar uma estrutura de mineração relacional.

Requisitos

Processo para criar uma estrutura de mineração relacional

Como escolher fontes de dados

Como especificar tipo de conteúdo e tipo de dados

Por que e como criar um conjunto de dados de retenção

Por que e como habilitar o Drillthrough

Requisitos

Primeiro, você deve ter uma fonte de dados existente. Você pode usar o designer de Fonte de Dados para configurar uma fonte de dados, caso ainda não exista. Para obter mais informações, consulte Criar uma fonte de dados (SSAS Multidimensional).

Em seguida, use o Assistente de Exibição da Fonte de Dados para montar os dados necessários em uma única exibição de fonte de dados. Para obter mais informações sobre como você pode selecionar, transformar, filtrar ou gerenciar dados com exibições de fonte de dados, consulte Exibições da Fonte de Dados em Modelos Multidimensionais.

Visão geral do processo

Inicie o Assistente de Mineração de Dados clicando com o botão direito do mouse no nó Estruturas de Mineração no Gerenciador de Soluções e selecionando Adicionar Nova Estrutura de Mineração. O assistente guia você pelas seguintes etapas para criar a estrutura de um novo modelo de mineração de dados relacional.

  1. Selecione o Método de Definição: aqui você seleciona um tipo de fonte de dados e escolhe De banco de dados relacional ou data warehouse.

  2. Crie a Estrutura de Mineração de Dados: determine se você criará apenas uma estrutura ou uma estrutura com um modelo de mineração.

    Você também escolhe um algoritmo apropriado para seu modelo inicial. Para obter diretrizes sobre qual algoritmo é melhor para determinadas tarefas, consulte Algoritmos de Mineração de Dados (Analysis Services – Mineração de Dados).

  3. Selecionar Visualização de Fonte de Dados: escolha uma visualização de fontes de dados para usar no treinamento do seu modelo. A exibição da fonte de dados também pode conter dados usados para testes ou dados não relacionados. Você pode escolher quais dados são realmente usados na estrutura e no modelo. Você também pode aplicar filtros aos dados posteriormente.

  4. Especificar Tipos de Tabela: selecione a tabela que contém os casos usados para análise. Para alguns conjuntos de dados, especialmente aqueles usados para criar modelos de cesta de compras, é possível incluir uma tabela relacionada, para ser usada como uma tabela aninhada.

    Para cada tabela, você deve especificar a chave, para que o algoritmo saiba como identificar um registro exclusivo e registros relacionados se você adicionou uma tabela aninhada.

    Para obter mais informações, consulte Colunas de Estrutura de Mineração.

  5. Especifique os Dados de Treinamento: Nesta página, você escolhe a tabela de casos, que é a tabela que contém os dados mais importantes para análise.

    Para alguns conjuntos de dados, especialmente aqueles usados para criar modelos de cesta de mercado, você também pode incluir uma tabela relacionada. Os valores nessa tabela aninhada serão tratados como vários valores que estão todos relacionados a uma única linha (ou caso) na tabela principal.

  6. Especificar conteúdo de colunas e tipos de dados: para cada coluna que você usa na estrutura, você deve escolher um tipo de dados e um tipo de conteúdo.

    O assistente detectará automaticamente possíveis tipos de dados, mas você não precisa usar o tipo de dados recomendado pelo assistente. Por exemplo, mesmo que seus dados contenham números, eles podem ser representativos de dados categóricos. As colunas especificadas como chaves recebem automaticamente o tipo de dados correto para esse tipo de modelo específico. Para obter mais informações, consulte Colunas de Modelo de Mineração e Tipos de Dados (Mineração de Dados).

    O tipo de conteúdo escolhido para cada coluna que você usa no modelo informa ao algoritmo como os dados devem ser processados.

    Por exemplo, você pode decidir diferenciar números, em vez de usar valores contínuos. Você também pode pedir ao algoritmo para detectar automaticamente o melhor tipo de conteúdo para a coluna. Para obter mais informações, consulte Tipos de Conteúdo (Mineração de Dados).

  7. Criar Conjunto de Testes: nesta página, você pode informar ao assistente quantos dados devem ser reservados para uso no teste do modelo. Se os dados oferecerem suporte a vários modelos, é uma boa ideia criar um conjunto de dados de espera para que todos os modelos possam ser testados nos mesmos dados.

    Para obter mais informações, consulte Teste e validação (mineração de dados).

  8. Concluindo o Assistente: nesta página, você dá um nome à nova estrutura de mineração e ao modelo de mineração associado e salva a estrutura e o modelo.

    Você também pode definir algumas opções importantes, dependendo do tipo de modelo. Por exemplo, você pode habilitar a função de detalhamento na estrutura.

    Neste ponto, a estrutura de mineração e seu modelo são apenas metadados; você precisará processá-los para obter resultados.

Como escolher dados relacionais

As estruturas de mineração relacional podem ser baseadas em todos os dados disponíveis por meio de uma fonte de dados OLE DB. Se os dados de origem estiverem contidos em várias tabelas, você usará uma exibição de fonte de dados para montar as tabelas e colunas necessárias em um só lugar.

Se as tabelas incluem relações um-para-muitos, por exemplo, você tem vários registros de compra para cada cliente que deseja analisar, você pode adicionar ambas as tabelas e, em seguida, usar uma delas como tabela de caso, vinculando dados do lado de muitos da relação como uma tabela aninhada.

Os dados em uma estrutura de mineração são derivados do que está na visão da fonte de dados existente. Você pode modificar dados conforme necessário na exibição da fonte de dados, adicionando relações ou colunas derivadas que podem não estar presentes nos dados relacionais subjacentes. Você também pode criar cálculos nomeados ou agregações na exibição da fonte de dados. Esses recursos são muito úteis se você não tiver controle sobre a disposição dos dados na fonte de dados ou se quiser experimentar diferentes agregações de dados para seus modelos de mineração de dados.

Você não precisa usar todos os dados disponíveis; você pode escolher quais colunas incluir na estrutura de mineração. Todos os modelos baseados nessa estrutura podem usar essas colunas ou você pode sinalizar determinadas colunas como Ignore para um modelo específico. Você pode permitir que os usuários de um modelo de mineração de dados analisem os resultados do modelo de mineração para ver colunas de estrutura de mineração adicionais que não foram incluídas no próprio modelo de mineração.

Como especificar tipo de conteúdo e tipo de dados

O tipo de dados é praticamente o mesmo que os tipos de dados especificados no SQL Server ou em outras interfaces de aplicativo: datas e horas, números de tamanhos diferentes, valores boolianos, texto e outros dados discretos.

No entanto, os tipos de conteúdo são importantes para a mineração de dados e afetam o resultado da análise. O tipo de conteúdo informa ao algoritmo o que ele deve fazer com os dados: os números devem ser tratados em escala contínua ou agrupados? Quantos valores potenciais existem? Cada valor é distinto? Se o valor for uma chave, que tipo de chave é- ela indica um valor de data/hora, uma sequência ou algum outro tipo de chave?

Observe que a escolha do tipo de dados pode limitar sua escolha de tipos de conteúdo. Por exemplo, você não pode diferenciar valores que não são numéricos. Se você não conseguir ver o tipo de conteúdo desejado, clique em Voltar para retornar à página de tipo de dados e tentar um tipo de dados diferente.

Você não precisa se preocupar muito em obter o tipo de conteúdo errado. É muito fácil criar um novo modelo e alterar o tipo de conteúdo dentro do modelo, desde que o novo tipo de conteúdo tenha suporte pelo conjunto de tipos de dados na estrutura de mineração. Também é muito comum criar vários modelos usando tipos de conteúdo diferentes, como um experimento ou atender aos requisitos de um algoritmo diferente.

Por exemplo, se seus dados contiverem uma coluna de renda, você poderá criar dois modelos diferentes ao usar o algoritmo Árvores de Decisão da Microsoft e configurar a coluna como números contínuos ou intervalos discretos. No entanto, se você adicionou um modelo usando o algoritmo Microsoft Naïve Bayes, será forçado a alterar a coluna apenas para valores discretos, pois esse algoritmo não dá suporte a números contínuos.

Por que e como dividir dados em conjuntos de treinamento e teste

Perto do final do assistente de configuração, você deve decidir se deseja particionar seus dados em conjuntos de treinamento e teste. A capacidade de provisionar uma parte amostrada aleatoriamente dos dados para teste é muito conveniente, pois garante que um conjunto consistente de dados de teste esteja disponível para uso com todos os modelos de mineração associados à nova estrutura de mineração.

Aviso

Observe que essa opção não está disponível para todos os tipos de modelo. Por exemplo, se você criar um modelo de previsão, não poderá usar o holdout, pois o algoritmo de série temporal exige que não haja lacunas nos dados. Para obter uma lista dos tipos de modelo que dão suporte a conjuntos de dados de validação, consulte Conjuntos de Dados de Treinamento e Teste.

Para criar esse conjunto de dados de controle, especifique a porcentagem dos dados que deseja usar para teste. Todos os dados restantes serão usados para treinamento. Opcionalmente, você pode definir um número máximo de casos a serem usados para teste ou definir um valor de semente a ser usado no início do processo de seleção aleatória.

A definição do conjunto de testes holdout é armazenada com a estrutura de mineração, de modo que sempre que você criar um novo modelo com base na estrutura, o conjunto de dados de teste estará disponível para avaliar a exatidão do modelo. Se você excluir o cache da estrutura de mineração, as informações sobre quais casos foram usados para treinamento e quais foram usadas para teste também serão excluídas.

Por que e como habilitar o drill-through

Quase no final do assistente, você tem a opção de habilitar o detalhamento. É fácil perder essa opção, mas é importante. O detalhamento permite a exibição direta dos dados de origem na estrutura de mineração ao consultar diretamente o modelo de mineração.

Por que isso é útil? Suponha que você esteja exibindo os resultados de um modelo de clustering e queira ver os clientes que foram colocados em um cluster específico. Usando o detalhamento, você pode exibir detalhes, como informações de contato.

Aviso

Para usar o drillthrough, você deve habilitá-lo ao criar a estrutura de mineração. Você pode habilitar o detalhamento em modelos mais tarde, definindo uma propriedade no modelo, embora as estruturas de mineração exijam que essa opção seja definida no início. Para obter mais informações, consulte Consultas de detalhamento (mineração de dados).

Consulte Também

Designer de Mineração de Dados
Assistente de Mineração de Dados (Analysis Services – Mineração de Dados)
Propriedades do modelo de mineração
Propriedades para estrutura de mineração e colunas de estrutura
Tarefas e instruções da estrutura de mineração