Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
O Assistente de Dados de Exemplo torna mais fácil dividir os dados de origem em dois conjuntos, um para a construção (treinamento) do modelo e outro para testar o modelo. Esse assistente também fornece uma opção para a reamostragem dos dados, a fim de criar um novo conjunto de dados que represente melhor seu objetivo.
Criar o tipo certo de dados para treinar e testar seus modelos é uma parte importante da mineração de dados, mas que pode ser entediante sem as ferramentas certas. O assistente executa a amostragem estratificada para garantir que os conjuntos de treinamento e teste estejam bem equilibrados.
Amostragem aleatória e sobreamostragem
. A amostragem aleatória é a melhor maneira de garantir que os dados usados para testar um modelo representem de forma justa os dados que você usa para criar o modelo. Você pode amostrar aleatoriamente dados armazenados no Excel ou em uma fonte de dados externa
Se você usar a opção de amostragem aleatória, o Assistente de Dados de Exemplo criará automaticamente conjuntos de dados de treinamento e teste e os gerará em planilhas separadas do Excel para referência posterior.
Se os dados estiverem armazenados em uma pasta de trabalho do Excel e não em uma fonte de dados externa, você também terá a opção de usar a sobrecarga. Com essa opção, você especifica um valor alvo que pode ser escasso em seus dados e o assistente montará um conjunto equilibrado que inclui mais do valor alvo. Você pode direcionar o assistente para atingir uma porcentagem objetiva ou para criar um determinado número de linhas.
Se você usar a opção de superamostragem, o Assistente de Dados de Amostra criará uma nova planilha que contém os dados de amostra recém-balanceados.
Usando o Assistente de Dados de Exemplo
Para separar dados em conjuntos de treinamento e teste
Na faixa Mineração de Dados, clique Dados de Exemplo.
Na página Selecionar Dados de Origem , especifique se os dados que você deseja particionar estão em um intervalo ou tabela do Excel ou em uma fonte de dados externa.
Na página Selecionar Tipo de Amostragem , especifique se deseja criar conjuntos de dados de treinamento e teste por amostragem aleatória ou criar um novo conjunto de dados por meio da sobrecarga.
Observação
Se você estiver usando uma fonte de dados externa, apenas a opção de amostragem aleatória estará disponível. Se você quiser usar a sobreamostragem com dados externos, poderá importar os dados para uma pasta de trabalho do Excel usando uma conexão de dados do Excel e, em seguida, usar o Assistente de Amostragem de Dados.
Defina opções específicas para o método de amostragem selecionado.
Para amostragem aleatória, especifique uma porcentagem dos dados originais a serem usados para teste ou o número total de linhas a serem usadas no conjunto de dados de teste.
Para a sobreamostragem, selecione a coluna e o valor que deseja enfatizar. Em seguida, especifique o número total de linhas no novo conjunto de dados e o percentual de linhas no novo conjunto de dados que deve incluir o valor de destino.
O valor de destino para sobrecarga deve ser um valor discreto; não é possível sobresamplar dados numéricos contínuos.
Na página Concluir, aceite os nomes padrão para os novos conjuntos de dados ou digite um novo nome.
O assistente cria novas planilhas para cada conjunto de dados.
A maioria dos assistentes do Cliente de Mineração de Dados para Excel também oferece a opção de separar seus dados aleatoriamente em conjuntos de treinamento e teste. No entanto, se você usar os assistentes, seus dados permanecerão na mesma planilha (ou outra fonte de dados) e as informações sobre se uma linha específica é um caso de teste ou caso de treinamento são armazenadas internamente. Por outro lado, quando você usa o Assistente de Dados de Exemplo, os dados de teste e treinamento são gerados para planilhas separadas para uma referência fácil.
Opções relacionadas
Conforme você avança no assistente, você terá as seguintes opções:
| Opções | Comentários |
|---|---|
| Caixa de diálogo Selecionar Dados de Origem (Cliente de Mineração de Dados para Excel) | Selecione um intervalo ou tabela do Excel que contenha os dados. Se você quiser usar dados externos, os dados poderão ser relacionais, mas devem ser incluídos em uma fonte de dados do Analysis Services. T |
| Página Selecionar Tipo de Amostragem (Cliente de Mineração de Dados para Excel) | Se você usar uma fonte de dados externa, estará limitado a usar a opção de amostragem aleatória. Além disso, você deve especificar o número de linhas a serem criadas no conjunto de dados final usando a opção contagem de linhas. Você não pode especificar uma porcentagem dos dados de origem. |
| Página amostragem aleatória (cliente de mineração de dados para Excel) | Você pode copiar uma porcentagem de linhas da origem ou um número específico de linhas. |
| Página de Sobreamostragem (Cliente de Mineração de Dados para Excel) |
Estado de destino Selecione um valor na lista que está sub-representado no conjunto de dados original. A sobreamostragem aumentará a proporção de linhas de dados que incluem esse estado. Tamanho da amostra Selecione o número total de linhas a serem extraídas. Esse valor representa o tamanho do conjunto de dados final. |
Outras opções de amostragem
Se as opções de amostragem neste assistente não atenderem às suas necessidades, você poderá usar a transformação de amostragem no SQL Server Integration Services (SSIS) para amostrar linhas de várias fontes de dados.
Para obter mais informações, consulte Transformação de Amostragem de Linhas e Transformação de Amostragem Percentual.