Compartilhar via


Dados de Amostra (Suplementos de Mineração de Dados do SQL Server)

Assistente de Dados de Partição no Assistente de Dados de Partição da faixa de

O assistente dados de exemplo facilita a divisão dos dados de origem em dois conjuntos, um para criar (treinamento) o modelo e outro para testar o modelo. Esse assistente também fornece uma opção para gerar nova amostra dos dados para criar um novo conjunto de dados que represente melhor o destino.

Criar o tipo certo de dados para treinar e testar seus modelos é uma parte importante da mineração de dados, mas também é uma parte que pode ser tediosa sem as ferramentas corretas. O assistente executa a amostragem estratificada para garantir que os conjuntos de treinamento e teste são bem equilibrados.

Amostragem e sobreamostragem aleatórias

. A amostragem aleatória é a melhor maneira de assegurar que os dados usados para testar um modelo representem razoavelmente os dados usados para criar o modelo. Você pode criar aleatoriamente dados de exemplo armazenados no Excel ou em uma fonte de dados externa.

Se você usar a opção de amostragem aleatória, o Assistente de Dados de Exemplo criará automaticamente conjuntos de dados de treinamento e teste e os gerará em planilhas separadas do Excel para referência posterior.

Se seus dados estiverem armazenados em uma pasta de trabalho do Excel e não em uma fonte de dados externa, você também terá a opção de usar a sobrecarga. Com essa opção, você especifica um valor de destino que pode ser escasso nos seus dados, e o assistente coletará um conjunto balanceado que inclui mais do valor de destino. Você pode instruir o assistente a atingir uma porcentagem de destino ou criar um certo número de linhas.

Se você usar a opção oversampling, o assistente de Dados de Exemplo criará uma nova planilha que contém os dados de exemplo com balanceamento recente.

Usando o Assistente de Dados de Amostra

Para separar dados em conjuntos de treinamento e de teste

  1. Na faixa de opções Mineração de Dados , clique em Dados de Exemplo.

  2. Na página Selecionar Dados de Origem , especifique se os dados que você deseja particionar estão em um intervalo ou tabela do Excel ou em uma fonte de dados externa.

  3. Na página Selecionar Tipo de Amostragem , especifique se deseja criar conjuntos de dados de treinamento e teste por amostragem aleatória ou criar um novo conjunto de dados por sobrecarga.

    Observação

    Se você estiver usando uma fonte de dados externa, apenas a opção de amostragem aleatória estará disponível. Se você desejar usar a sobreamostragem com dados externos, poderá importar os dados para uma pasta de trabalho do Excel usando uma conexão de dados do Excel e, depois, usar o Assistente de Dados de Exemplo.

  4. Defina as opções específicas ao método de amostragem selecionado.

    • Para a amostragem aleatória, especifique uma porcentagem dos dados originais para uso em testes ou o número total de linhas para uso no conjunto de dados de teste.

    • Para a sobreamostragem, selecione a coluna e o valor que você deseja enfatizar. Em seguida, especifique o número total de linhas no novo conjunto de dados e a porcentagem de linhas no novo conjunto de dados que devem incluir o valor de destino.

      O valor de destino da sobreamostragem deve ser um valor discreto; você não pode fazer a sobreamostragem de dados numéricos contínuos.

  5. Na página Concluir, aceite os nomes padrão para os novos conjuntos de dados ou digite um novo nome.

    O assistente cria novas planilhas para cada conjunto de dados.

A maioria dos assistentes no Cliente de Mineração de Dados para Excel também fornece uma opção para separar aleatoriamente os dados em conjuntos de treinamento e teste. No entanto, se você usar os assistentes, os dados permanecerão na mesma planilha (ou em outra fonte de dados), e as informações que determinam se uma linha é um caso de teste ou de treinamento serão armazenadas internamente. Por outro lado, quando você usa o Assistente de Dados de Exemplo , os dados de teste e treinamento são gerados para separar planilhas para facilitar a referência.

À medida que você percorrer as etapas do assistente, terá as seguintes opções:

Opções Comentários
Caixa de diálogo Selecionar Fonte de Dados (Cliente de Mineração de Dados para Excel) Selecione um intervalo ou uma tabela do Excel que contém os dados. Se você quiser usar dados externos, os dados podem ser relacionais, mas devem ser incluídos em uma fonte de dados do Analysis Services. T
Página Selecionar Tipo de Amostragem (Cliente de Mineração de Dados para Excel) Se você utilizar uma fonte de dados externa, ficará limitado ao uso da opção de amostragem aleatória. Além disso, você deve especificar o número de linhas a serem criadas no conjunto de dados final usando a opção Contagem de linhas. Não é possível especificar uma porcentagem dos dados de origem.
Página amostragem aleatória (Cliente de Mineração de Dados para Excel) Você pode copiar uma porcentagem de linhas da origem ou um número específico de linhas.
Página de sobreamostragem (Cliente de Mineração de Dados para Excel) Estado de destino

Selecione um valor na lista que esteja sub-representado no conjunto de dados original. A sobreamostragem aumentará a proporção de linhas de dados que incluem esse estado.

Tamanho da amostra

Selecione o número total de linhas a serem extraídas. Esse valor representa o tamanho do conjunto de dados final.

Outras opções de amostragem

Se as opções de amostragem nesse assistente não atenderem às suas necessidades, use a transformação de amostragem no SQL Server Integration Services (SSIS) para criar amostras de linhas de várias fontes de dados.

Para obter mais informações, consulte Transformação de amostragem de linhas e Transformação amostragem percentual.

Consulte Também

Lista de verificação de preparação para mineração de dados