Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Uma estrutura de mineração destina-se a dar suporte a vários modelos de mineração. Dessa forma, após concluir o assistente, você pode abrir a estrutura e adicionar novos modelos de mineração. Cada vez que você cria um modelo, pode usar um algoritmo diferente, alterar os parâmetros ou aplicar filtros para usar um subconjunto diferente dos dados.
Adicionando novos modelos de mineração
Ao usar o Assistente de Mineração de Dados para criar um novo modelo de mineração, por padrão, você sempre deve criar uma estrutura de mineração primeiro. Em seguida, o assistente oferece a opção de adicionar um modelo de mineração inicial à estrutura. No entanto, você não precisa criar um modelo imediatamente. Se você criar apenas a estrutura, não precisará tomar uma decisão sobre qual coluna usar como atributo previsível ou como usar os dados em um modelo específico. Em vez disso, basta configurar a estrutura de dados geral que deseja usar no futuro e, posteriormente, você pode usar o Designer de Mineração de Dados para adicionar novos modelos de mineração baseados na estrutura.
Observação
No DMX, a instrução CREATE MINING MODEL começa com o modelo de mineração. Ou seja, você define sua escolha de modelo de mineração e o Analysis Services gera automaticamente a estrutura subjacente. Posteriormente, você poderá continuar a adicionar novos modelos de mineração a essa estrutura usando a instrução ALTER STRUCTURE... ADD MODEL.
Escolhendo um algoritmo
Quando você adiciona um novo modelo a uma estrutura existente, a primeira coisa que você deve fazer é selecionar um algoritmo de mineração de dados a ser usado nesse modelo. Escolher o algoritmo é importante porque cada algoritmo executa um tipo diferente de análise e tem requisitos diferentes.
Ao selecionar um algoritmo incompatível com seus dados, você receberá um aviso. Em alguns casos, talvez seja necessário ignorar colunas que não podem ser processadas pelo algoritmo. Em outros casos, o algoritmo fará automaticamente os ajustes para você. Por exemplo, se sua estrutura contiver dados numéricos e o algoritmo só puder funcionar com valores discretos, ele agrupará os valores numéricos em intervalos discretos para você. Em alguns casos, talvez seja necessário corrigir manualmente os dados primeiro, escolhendo uma chave ou escolhendo um atributo previsível.
Você não precisa alterar o algoritmo ao criar um novo modelo. Muitas vezes, você pode obter resultados muito diferentes usando o mesmo algoritmo, mas filtrando os dados ou alterando um parâmetro como o método de clustering ou o tamanho mínimo do conjunto de itens. Recomendamos que você experimente vários modelos para ver quais parâmetros produzem os melhores resultados.
Observe que todos os novos modelos precisam ser processados antes que você possa usá-los.
Especificando o uso de colunas em um novo modelo de mineração
Ao adicionar novos modelos de mineração a uma estrutura de mineração existente, você deve especificar como cada coluna de dados deve ser usada pelo modelo. Dependendo do tipo de algoritmo escolhido para o modelo, algumas dessas opções podem ser feitas por padrão. Se você não especificar um tipo de uso para uma coluna, a coluna não será incluída na estrutura de mineração. No entanto, os dados na coluna ainda poderão estar disponíveis para análise detalhada, se o modelo suportar isso.
As colunas da estrutura de mineração usadas pelo modelo (se não definidas como Ignorar) devem ser uma chave, uma coluna de entrada, uma coluna previsível ou uma coluna previsível dos quais os valores também são usados como entradas para o modelo.
As colunas de chave contêm um identificador exclusivo para cada linha em uma tabela. Alguns modelos de mineração, como aqueles baseados no clustering de sequências ou algoritmos de série temporal, podem conter várias colunas de chave. No entanto, essas várias chaves não são chaves compostas no sentido relacional, mas devem ser selecionadas para fornecer suporte para a análise de séries temporais e clustering de sequências.
As colunas de entrada fornecem as informações das quais as previsões são feitas. O Assistente de Mineração de Dados fornece o recurso Sugerir , que é habilitado quando você seleciona uma coluna previsível. Se você clicar nesse botão, o assistente amostrará os valores previsíveis e determinará qual das outras colunas na estrutura criará boas variáveis. Ele rejeitará colunas-chave ou outras colunas com muitos valores exclusivos e sugerirá colunas que parecem estar correlacionadas com o resultado.
Esse recurso é particularmente útil quando os conjuntos de dados contêm mais colunas do que você realmente precisa para criar um modelo de mineração. O recurso Sugerir calcula uma pontuação numérica, de 0 a 1, que descreve a relação entre cada coluna no conjunto de dados e a coluna previsível. Com base nessa pontuação, o recurso sugere colunas a serem usadas como entrada para o modelo de mineração. Se você usar o recurso Sugerir , poderá usar as colunas sugeridas, modificar as seleções para atender às suas necessidades ou ignorar as sugestões.
Colunas previsíveis contêm as informações que você tenta prever no modelo de mineração. Você pode selecionar várias colunas como atributos previsíveis. Os modelos de clustering são a exceção em que um atributo previsível é opcional.
Dependendo do tipo de modelo, a coluna previsível pode precisar ser um tipo de dados específico: por exemplo, um modelo de regressão linear requer uma coluna numérica como o valor previsto; O algoritmo Naïve Bayes requer um valor discreto (e todas as entradas também devem ser discretas).
Especificando o conteúdo da coluna
Para algumas colunas, talvez você também precise especificar o conteúdo da coluna. Na mineração de dados do SQL Server, a propriedade Tipo de Conteúdo de cada coluna de dados informa ao algoritmo como ele deve processar os dados nessa coluna. Por exemplo, se os dados tiverem uma coluna Renda, você deverá especificar que a coluna contém números contínuos definindo o tipo de conteúdo como Contínuo. No entanto, você também pode especificar que os números na coluna Renda sejam agrupados em buckets definindo o tipo de conteúdo como Discretized e, opcionalmente, especificando o número exato de buckets. Você pode criar modelos diferentes que lidam com colunas de forma diferente: por exemplo, você pode tentar um modelo que coloca os clientes em três faixas etárias e outro modelo que coloca os clientes em 10 faixas etárias.
Consulte Também
Estruturas de mineração (Analysis Services – Mineração de dados)
Criar uma estrutura de mineração relacional
Propriedades do modelo de mineração
Colunas de modelo de mineração