Selecionar Colunas no Conjunto de Dados
Importante
O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.
A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).
- Consulte informações sobre projetos de machine learning em movimento de ML Studio (clássico) para Azure Machine Learning.
- Saiba mais sobre Azure Machine Learning.
A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.
Seleciona colunas para incluir ou excluir de um conjunto de dados numa operação
Categoria: Transformação de Dados / Manipulação
Nota
Aplica-se a: Machine Learning Studio (clássico) apenas
Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.
Visão geral do módulo
Este artigo descreve como utilizar o módulo Select Columns in Dataset no Machine Learning Studio (clássico), para escolher um subconjunto de colunas para utilizar em operações a jusante. O módulo não remove fisicamente as colunas do conjunto de dados de origem; em vez disso, cria um subconjunto de colunas, tal como uma visão ou projeção de base de dados.
Este módulo é particularmente útil quando é necessário limitar as colunas disponíveis para uma operação a jusante, ou se pretende reduzir o tamanho do conjunto de dados removendo colunas não necessárias.
As colunas no conjunto de dados são saídas na mesma ordem que nos dados originais, mesmo que as especifique numa ordem diferente.
Como utilizar Colunas Selecionadas no Conjunto de Dados
Este módulo não tem parâmetros. Utilize o seletor de colunas para escolher as colunas para incluir ou excluir.
Escolha colunas pelo nome
Existem múltiplas opções no módulo para escolher colunas pelo nome:
Filtrar e pesquisar
Clique na opção POR NOME .
Se tiver ligado um conjunto de dados que já está povoado, deve aparecer uma lista de colunas disponíveis. Se não aparecerem colunas, poderá ser necessário executar módulos a montante para visualizar a lista de colunas.
Para filtrar a lista, digite na caixa de pesquisa. Por exemplo, se escrever a letra
w
na caixa de pesquisa, a lista é filtrada para mostrar os nomes das colunas que contêm a letraw
.Selecione colunas e clique no botão de seta direita para mover as colunas selecionadas para a lista no painel direito.
- Para selecionar uma gama contínua de nomes de colunas, prima Shift + Click.
- Para adicionar colunas individuais à seleção, prima Ctrl + Click.
Clique no botão de marca de verificação para guardar e fechar.
Use nomes em combinação com outras regras
Clique na opção COM REGRAS .
Escolha uma regra, como mostrar colunas de um tipo de dados específico.
Em seguida, clique em colunas individuais desse tipo por nome, para adicioná-las à lista de seleção.
Digite ou cole uma lista separada de vírgulas de nomes de colunas
Se o seu conjunto de dados for muito amplo, poderá ser mais fácil utilizar índices ou listas de nomes geradas, em vez de selecionar colunas individualmente. Assumindo que preparou a lista com antecedência:
- Clique na opção COM REGRAS .
- Selecione Não colunas, selecione Incluir e, em seguida, clique dentro da caixa de texto com o ponto de exclamação vermelho.
- Cole ou digite uma lista separada por vírgula de nomes de colunas previamente validados. Não é possível guardar o módulo se alguma coluna tiver um nome inválido, por isso certifique-se de verificar previamente os nomes.
Também pode utilizar este método para especificar uma lista de colunas utilizando os seus valores de índice. Consulte a secção Exemplos para obter dicas sobre como trabalhar com índices de colunas.
Escolha por tipo
Se utilizar a opção COM REGRAS , pode aplicar várias condições nas seleções das colunas. Por exemplo, pode precisar de obter apenas colunas de recurso de um tipo de dados numérico.
A opção START WITH determina o seu ponto de partida e é muito importante para compreender os resultados.
Se selecionar a opção TODAS AS COLUNAS , todas as colunas são adicionadas à lista. Em seguida, deve utilizar a opção Excluir para remover colunas que satisfaçam determinadas condições.
Por exemplo, pode começar com todas as colunas e depois remover colunas pelo nome, ou por tipo.
Se selecionar a opção NO COLUMNS , a lista de colunas começa a ficar vazia. Em seguida, especifique as condições para adicionar colunas à lista.
Se aplicar várias regras, cada condição é aditivo. Por exemplo, digamos que começa sem colunas e depois adiciona uma regra para obter todas as colunas numéricas. No conjunto de dados de preços do Automóvel, isso resulta em 16 colunas. Em seguida, clique no + sinal para adicionar uma nova condição e selecione Incluir todas as funcionalidades. O conjunto de dados resultante inclui todas as colunas numéricas, além de todas as colunas de funcionalidades, incluindo algumas colunas de funcionalidades de cordas.
Escolha por índice de coluna
O índice da coluna refere-se à ordem da coluna dentro do conjunto de dados original.
- As colunas são numeradas sequencialmente a partir de 1.
- Para obter uma gama de colunas, use um hífen.
- Especificações abertas, tais como
1-
ou-3
não são permitidas. - Não são permitidos valores de índice duplicados (ou nomes de colunas) e pode resultar num erro.
Por exemplo, assumindo que o seu conjunto de dados tem pelo menos oito colunas, pode colar em qualquer um dos seguintes exemplos para devolver várias colunas não contíguas:
8,1-4,6
1,3-8
1,3-6,4
o exemplo final não resulta num erro; no entanto, devolve uma única instância de coluna 4
.
Para obter dicas adicionais sobre o trabalho com índices de colunas, consulte a secção Exemplos .
Alterar a ordem das colunas
A opção Permitir duplicar e preservar a ordem da coluna na seleção começa com uma lista vazia e adiciona colunas que especifica pelo nome ou por índice. Ao contrário de outras opções, que devolvem sempre colunas na sua "ordem natural", esta opção produz as colunas na ordem que nomeia ou enumera.
Por exemplo, num conjunto de dados com as colunas Col1, Col2, Col3 e Col4, pode inverter a ordem das colunas e deixar de fora a coluna 2, especificando qualquer uma das seguintes listas:
Col4, Col3, Col1
4,3,1
Exemplos
Por exemplo, como utilizar Colunas Selecionadas em Conjunto de Dados, consulte estas experiências de amostra na Galeria modelo:
A amostra de deteção do cancro da mama utiliza Colunas Selecionadas no Conjunto de Dados para remover uma coluna vazia, remover uma coluna com dados duplicados e para projetar conjuntos de treino e teste.
Na amostra de previsão de atraso de voo , seleciona colunas no conjunto de dados para excluir todas as colunas de cordas e para excluir colunas pelo nome.
Na Previsão da amostra de desempenho do aluno , Select Columns in Dataset é usado para obter todas as características temporais e para excluir várias colunas.
Na amostra Compare Regressors , Select Columns in Dataset é usado para excluir a coluna, num-of-doors, porque é o tipo de dados errado para a operação matemática que se segue.
Cenários comuns para a seleção de colunas
Os exemplos a seguir descrevem algumas formas típicas de os utilizadores aplicarem Colunas Selecionadas no Conjunto de Dados na aprendizagem automática, e fornecem algumas dicas para como selecionar as colunas:
Quero remover colunas de texto do conjunto de dados para poder aplicar uma operação matemática a todas as colunas numéricas.
Muitas operações exigem que apenas colunas numéricas estejam presentes no conjunto de dados. Pode remover temporariamente colunas que causem um erro, excluindo texto e excluindo colunas categóricas (números que representam categorias discretas).
Clique no seletor de colunas de lançamento.
Para Começar, selecione Todas as colunas.
Selecione a opção Excluir , selecione o tipo de coluna e, em seguida, selecione String.
Clique no sinal de mais (+) para adicionar uma nova condição.
Selecione a opção Excluir , selecione o tipo de coluna e, em seguida, selecione Categoricamente.
Preciso de aplicar a seleção de recursos apenas às colunas de características categóricas.
Se precisar de separar colunas de um tipo semelhante, pode aplicar várias condições. Por exemplo, as funcionalidades podem ser categóricas ou numéricas, mas alguns módulos de seleção de recursos não permitem campos não numéricos, por isso primeiro tem que obter funcionalidades e, em seguida, adicionar uma condição para obter apenas as características numéricas.
Clique no seletor de colunas de lançamento.
Para começar, selecione Não há colunas.
Selecione a opção Incluir e selecione todas as funcionalidades.
Clique no sinal de mais (+) para adicionar uma nova condição.
Selecione a opção Incluir , selecione o tipo de coluna e, em seguida, selecione Categoricamente.
Preciso aplicar uma operação de normalização diferente a diferentes colunas numéricas.
Antes de aplicar operações matemáticas, pode precisar de separar os inteiros dos números de pontos flutuantes, etc. Para isso, utilize os tipos de dados e aplique múltiplas condições.
Clique no seletor de colunas de lançamento.
Para começar, selecione Não há colunas.
Selecione a opção Incluir , selecione o tipo de coluna e, em seguida, selecione Numérico.
Clique no sinal de mais (+) para adicionar uma nova condição.
Selecione a opção Incluir , selecione o tipo de coluna e, em seguida, selecione o tipo numérico que é incompatível com a operação a jusante.
Há demasiadas colunas para escolher usando o seletor.
Muitas vezes, depois de importar um conjunto de dados, descobre-se que tem muitas colunas que não são necessárias para modelar. No entanto, pretende preservá-los para a saída mais tarde, ou para identificar casos. Pode fazê-lo dividindo o conjunto de dados em duas partes (metadados e colunas utilizadas para modelação) e posteriormente recombinar colunas, se necessário, utilizando Colunas adicionais.
Clique no seletor de colunas de lançamento.
Para começar, selecione Não há colunas.
Selecione a opção Incluir , selecione o tipo de coluna e, em seguida, selecione 'Recurso'.
Clique no sinal de mais (+) para adicionar uma nova condição.
Selecione a opção Incluir , selecione o tipo de coluna e, em seguida, selecione Label.
Repita estes passos, mas comece com todas as colunas e, em seguida, exclua as colunas de funcionalidades e etiquetas para criar um conjunto de dados apenas dos metadados.
Não sei os valores dos índices das colunas de que preciso.
Se houver apenas algumas colunas no seu conjunto de dados, pode usar a opção Visualize para ver as primeiras 100 linhas e, em seguida, descobrir qual coluna é o índice 1, 2 e assim por diante.
Os índices em Machine Learning começam em 1, por isso a primeira coluna é sempre 1.
Para obter o índice da última coluna, veja as duas listas de colunas no Seletor de Colunas: COLUNAS DISPONÍVEIS e COLUNAS SELECIONADAS. A barra cinzenta por baixo da lista de colunas mostra a contagem de colunas em cada lista. Assim, se 24 colunas estiverem disponíveis e duas colunas são selecionadas, há um total de 26 colunas, e o índice da coluna final é de 26.
Outra opção para extrair o esquema do seu conjunto de dados é utilizar o módulo Executar R Script para obter os nomes da coluna com números de índice.
Ligação o seu conjunto de dados para o módulo executo R Script.
No módulo, digite um script como o seguinte para des output os nomes das colunas. A linha que começa com
myindex
gera uma sequência que representa os índices em ordem.dataset1 <- maml.mapInputPort(1) # class: data.frame mycolnames <-names(dataset1); myindex <- seq(from = 1, to = length(mycolnames), by=1); outdata <- as.data.frame(cbind(myindex, mycolnames)); maml.mapOutputPort("outdata");
Resultados do conjunto de dados de preços do automóvel
myindex mycolnames 1 symboling 2 perdas normalizadas 3 make
Notas técnicas
Se estiver familiarizado com bases de dados relacionais, este módulo cria uma projeção dos dados; daí o nome original, Project Colunas. Em termos de base de dados, uma projeção é uma função, como uma declaração de Transact-SQL ou LINQ, que toma um dado em formato tabular como entrada e produz uma saída relacionada.
Em álgebra relacional, uma projeção é uma operação unary, que é escrita como um conjunto de nomes de atributos. O resultado de uma projeção é o conjunto desses atributos, com outros atributos descartados.
Entradas esperadas
Nome | Tipo | Description |
---|---|---|
Conjunto de dados | Tabela de Dados | Conjunto de dados de entrada |
Parâmetros do módulo
Nome | Intervalo | Tipo | Predefinição | Description |
---|---|---|---|---|
Selecionar colunas | qualquer | Seleção de Colunas | Selecione colunas para manter no conjunto de dados projetado. |
Saídas
Nome | Tipo | Description |
---|---|---|
Conjunto de dados de resultados | Tabela de Dados | Conjunto de dados de saída |
Exceções
Exceção | Description |
---|---|
Erro 0001 | Uma exceção ocorre se uma ou mais colunas especificadas do conjunto de dados não puderem ser encontradas. |
Erro 0003 | Uma exceção ocorre se um ou mais conjuntos de dados de entrada forem nulos ou vazios. |
Para obter uma lista de erros específicos dos módulos Studio (clássicos), consulte Machine Learning Códigos de Erro.
Para obter uma lista de exceções da API, consulte Machine Learning CÓDIGOs de Erro da API REST.