Partilhar via


Criar estrutura de mineração (suplementos de mineração de dados do SQL Server)

Botão Criar Estrutura de Mineração, faixa de opções Mineração de Dados

Use a opção Avançado no grupo Modelagem de Dados quando quiser criar um conjunto de dados usado para análise sem necessariamente criar um modelo. Isso é útil quando você deseja experimentar algoritmos diferentes.

Depois de criar a estrutura de mineração, use o assistente Adicionar Modelo à Estrutura para criar um modelo com base nessa estrutura. Você também pode criar novos modelos usando o Editor de Consultas Avançadas de Mineração de Dados.

Você também pode usar essa opção quando pretende criar modelos usando um dos algoritmos avançados, que têm suporte do Analysis Services, mas não estão disponíveis por meio de um assistente, como regressão linear ou agrupamento de sequência, ou se você estiver usando um algoritmo personalizado.

Observação

Ao criar a estrutura de mineração, você também pode estabelecer um conjunto de dados de teste selecionado aleatoriamente que pode ser usado para validar todos os modelos. Isso é útil porque você pode comparar facilmente a precisão do modelo com um conjunto de dados comum. Basta selecionar a opção, dividir dados em conjuntos de treinamento e teste e especificar um percentual apropriado de dados a serem reservados para teste, geralmente em torno de 30%.

Utilize o assistente para criar uma estrutura de mineração

  1. Na faixa de opções Mineração de Dados , clique em Avançado e selecione Criar Estrutura.

  2. Na caixa de diálogo Selecionar dados de origem , especifique o intervalo do Excel, a tabela de dados do Excel ou a fonte de dados externa que contém os dados que você deseja usar para análise.

    Clique em Próximo.

  3. Na caixa de diálogo Selecionar Colunas , examine a lista de colunas disponíveis na fonte de dados selecionada.

  4. Clique na seta à direita do nome da coluna para alterar o uso da coluna, escolhendo estes valores:

    • Chave. Pelo menos uma chave é necessária para cada modelo.

    • Momento chave. Essa opção está disponível apenas para modelos de previsão, em que é necessário.

    • Inclua. Indica que a coluna deve ser disponibilizada na estrutura de dados de mineração, mas não é uma coluna principal.

    • Não use. Indica que a coluna não deve ser incluída na estrutura de mineração.

    Lembre-se de que você sempre pode ignorar colunas ao criar o modelo, mas adicionar colunas posteriormente requer que você reprocesse a estrutura e o modelo.

  5. Clique no botão procurar (...) para definir o tipo de conteúdo, o tipo de dados e os sinalizadores de modelagem.

    Observação

    Se a coluna contiver dados numéricos, você sempre deverá abrir essa caixa de diálogo para garantir que o tipo de dados correto seja escolhido. Em alguns casos, mesmo que os dados de entrada sejam um número, você desejará tratá-los como uma variável categórica ou um valor discreto, em vez de um número contínuo.

    Por exemplo, uma coluna de código postal pode ser listada por padrão como um tipo de dados longo contínuo, mas para obter melhores resultados, você pode especificar que ela seja tratada como um valor de texto discreto.

    Para obter mais informações, consulte a seção sobre tipos de conteúdo na escolha de dados para mineração de dados.

    Clique em OK para fechar a caixa de diálogo.

  6. Clique em Próximo.

    Dependendo do tipo de dados que você está usando, você pode concluir o assistente após esta etapa. Nesse caso, vá para a página Concluir para nomear sua estrutura de mineração.

    Para outros modelos, você tem a opção adicional de criar um conjunto de dados de teste.

  7. Na caixa de diálogo Dividir dados em conjuntos de dados de treinamento e teste , especifique como deseja particionar seus dados. Por padrão, 30% dos dados são usados para teste.

    Opcionalmente, digite o número máximo de linhas a serem usadas para teste.

    Clique em Próximo.

  8. Na caixa de diálogo Finalizar, digite um nome e uma descrição para a nova estrutura de mineração.

  9. Clique em Concluir.

Opção Comentários
Caixa de diálogo Selecionar Dados de Origem Ao selecionar uma tabela do Excel, você deve indicar se os dados já têm cabeçalhos. Se você ignorar isso, a primeira linha de dados será usada como o nome da coluna.

Se você usar a opção, fonte de dados externa, poderá usar qualquer tipo de dados que possa ser definido em uma fonte de dados do Analysis Services. No entanto, a caixa de diálogo no suplemento para criar novas fontes de dados não inclui toda a gama de fontes de dados com suporte do Analysis Services, portanto, recomendamos que você crie as fontes de dados no servidor do Analysis Services com antecedência e conecte-se usando os suplementos.
Caixa de diálogo Editor de Consultas da Fonte de Dados Depois de se conectar à fonte de dados especificada, você pode adicionar colunas ou criar uma consulta personalizada para gerar colunas personalizadas.
Dividir dados em conjuntos de dados de treinamento e teste Um valor recomendado para treinamento versus conjuntos de testes é 70% para treinamento e 30% para teste; no entanto, se você tiver muitos dados, poderá especificar um número máximo de linhas para teste.
Caixa de diálogo Concluir As opções de drillthrough estão disponíveis em alguns tipos de modelo e são muito úteis se você incluir colunas de detalhes na sua estrutura de mineração. Por exemplo, se você criar um modelo de clustering, poderá incluir detalhes como nome ou endereço de email para detalhamento, mas não análise, para facilitar o contato com clientes em um cluster específico.

Configurando o uso da coluna no Assistente para Criar Estrutura de Mineração

Ao criar uma nova estrutura de mineração, você pode especificar quais colunas na fonte de dados devem ser incluídas na estrutura de mineração e como essas colunas devem ser usadas. Lembre-se de que uma estrutura de mineração pode dar suporte a vários modelos de mineração.

Valores Descrição
Incluir Especifica que a coluna contém dados que podem ser usados para análise ou previsão.
Chave Especifica que a coluna contém uma ID de transação, uma ID de série ou outra chave necessária para processamento.

Todos os algoritmos exigem uma coluna Key. No entanto, alguns algoritmos permitem apenas uma única chave, enquanto outros permitem várias chaves.

Se a coluna contiver uma chave, mas não for necessária para processamento, selecione Não Usar.
Hora da Chave Especifica que a coluna contém uma data ou outro valor numérico que pode ser usado para identificar exclusivamente itens em uma série temporal.
Não Usar Especifica que a coluna deve ser ignorada. Os dados na coluna não serão processados.

Para processar um modelo corretamente, o algoritmo deve saber qual coluna é a coluna de chave que identifica exclusivamente cada linha, qual coluna é a coluna de destino para criar previsões se você estiver criando um modelo previsível e quais colunas usar como colunas de entrada para criar as relações que preveem a coluna de destino.

  • As colunas especificadas como Não usar não estarão presentes na estrutura de mineração.

    Se você adicionar colunas desnecessárias ou com valores ruins, isso poderá afetar negativamente os resultados da análise. Portanto, certifique-se de incluir apenas as colunas relevantes. No entanto, tenha em mente que as colunas que você não utiliza na estrutura de mineração não estarão disponíveis para consulta.

  • As colunas especificadas como o tipo Include serão incluídas na estrutura de mineração e posteriormente poderão ser usadas para análise ou previsão nos modelos de mineração.

    Se você não tiver certeza se precisará usar a coluna, sempre poderá incluir a coluna na estrutura de mineração e criar um modelo de mineração que não use essa coluna. Por exemplo, você pode incluir uma coluna de número de telefone em seus dados para referência posterior, mas criar um modelo de clustering que ignore números de telefone. Depois que os clusters forem criados, você poderá criar uma consulta que retorna os números de telefone de pessoas que pertencem a um cluster específico.

  • Todos os algoritmos exigem uma coluna Key . Os valores na coluna Chave devem ser exclusivos. Uma coluna Key Time é necessária apenas para modelos de previsão ou série temporal. .

Requisitos

Para criar uma estrutura de mineração de dados, você deve ter uma conexão com uma instância do Analysis Services. Uma conexão é necessária mesmo se você estiver trabalhando com estruturas temporárias. Para obter mais informações sobre como criar ou alterar uma conexão, consulte Conectar-se aos dados de origem (Cliente de Mineração de Dados para Excel).

Consulte Também

Criando um modelo de mineração de dados