Componente Selecionar Colunas no Conjuntos de Dados

Este artigo descreve o componente no designer do Azure Machine Learning.

Use esse componente para escolher um subconjunto de colunas para usar em operações downstream. O componente não remove fisicamente as colunas do conjunto de dados de origem. Em vez disso, ele cria um subconjunto de colunas, como em uma exibição ou projeção de banco de dados.

Esse componente é útil para limitar as colunas disponíveis para uma operação downstream ou para reduzir o tamanho do conjunto de dados removendo colunas desnecessárias.

As colunas no conjunto de dados são geradas na mesma ordem que nos dados originais, mesmo se forem especificadas em uma ordem diferente.

Como usar

Esse componente não tem parâmetros. Use o seletor de coluna para escolher quais serão incluídas ou excluídas.

Escolher colunas pelo nome

Há várias opções no componente para escolher colunas pelo nome:

  • Filtrar e procurar

    Clique na opção POR NOME.

    Se você conectou um conjunto de dados já está populado, uma lista de colunas disponíveis deverá aparecer. Se nenhuma coluna aparecer, talvez seja necessário executar componentes upstream para ver a lista de colunas.

    Para filtrar a lista, digite na caixa de pesquisa. Por exemplo, se você digitar a letra w na caixa de pesquisa, a lista será filtrada para mostrar os nomes de coluna que contêm a letra w.

    Selecione as colunas e clique no botão de seta para a direita para mover as colunas selecionadas à lista no painel direito.

    • Para selecionar um intervalo contínuo de nomes de coluna, pressione Shift + Clique.
    • Para adicionar colunas individuais à seleção, pressione Ctrl + Clique.

    Clique no botão de marca de verificação para salvar e fechar.

  • Usar nomes combinadas com outras regras

    Clique na opção COM REGRAS.

    Escolha uma regra, como mostrar as colunas de um tipo de dados específico.

    Em seguida, clique em colunas individuais desse tipo pelo nome para adicioná-las à lista de seleção.

  • Digite ou cole uma lista de nomes de colunas separados por vírgula.

    Se o conjunto de seus conjuntos for amplo, pode ser mais fácil usar índices ou listas de nomes geradas, em vez de escolher colunas individualmente. Supondo a lista foi preparada com antecedência:

    1. Clique na opção COM REGRAS.
    2. Escolha Nenhuma coluna, selecione Incluir e clique dentro da caixa de texto com o ponto de exclamação vermelho.
    3. Cole ou digite uma lista separada por vírgulas de nomes de coluna validados anteriormente. O componente não poderá ser salvo se uma coluna tiver um nome inválido. Por isso, verifique os nomes com antecedência.

    Você também pode usar esse método para especificar uma lista de colunas com valores de índice.

Escolher por tipo

Se você usar a opção COM REGRAS, poderá aplicar várias condições às seleções de coluna. Por exemplo, pode ser necessário obter apenas colunas de recursos de um tipo de dados numérico.

A opção COMEÇAR COM determina o ponto de partida e é importante para entender os resultados.

  • Se você escolher a opção TODAS AS COLUNAS, todas as colunas serão adicionadas à lista. Em seguida, você precisa usar a opção Excluir para remover colunas que cumpram determinadas condições.

    Por exemplo, você pode iniciar com todas as colunas e depois remover colunas por nome ou tipo.

  • Se você escolher a opção NENHUMA COLUNA, a lista de colunas começará vazia. Em seguida, especifique as condições para adicionar colunas à lista.

    Ao aplicar várias regras, cada condição será aditiva. Por exemplo, você pode iniciar sem colunas e, em seguida, adicionar uma regra para obter todas as colunas numéricas. No conjunto de linhas de preço de automóveis, o resultado são 16 colunas. Em seguida, clique no sinal + para adicionar uma nova condição e escolha Incluir todos os recursos. O conjunto de resultados resultante contém todas as colunas numéricas, além de todas as colunas de recurso, incluindo algumas de cadeia de caracteres.

Escolher por índice de coluna

O índice de coluna se refere à ordem da coluna dentro do conjunto de dados original.

  • As colunas são numeradas em sequência, iniciando pelo 1.
  • Para obter um intervalo de colunas, use um hífen.
  • Especificações abertas como 1- ou -3 não são permitidas.
  • Valores de índice duplicados (ou nomes de coluna) não são permitidos e podem resultar em erro.

Por exemplo, supondo que o conjunto tenha pelo menos oito colunas, você pode colar um destes exemplos para retornar várias colunas não contíguas:

  • 8,1-4,6
  • 1,3-8
  • 1,3-6,4

o exemplo final não resulta em erro. No entanto, ele retorna uma única instância da coluna 4.

Mudar ordem das colunas

A opção Permitir duplicatas e preservar a ordem de coluna na seleção começa com uma lista vazia e adiciona colunas especificadas pelo nome ou pelo índice. Ao contrário de outras opções, que sempre retornam colunas na "ordem natural", essa opção retorna as colunas na ordem em que você as nomeia ou lista.

Por exemplo, em um conjunto de dados com as colunas Col1, Col2, Col3 e Col4, você pode inverter a ordem das colunas e excluir a coluna 2, especificando uma das seguintes listas:

  • Col4, Col3, Col1
  • 4,3,1

Próximas etapas

Confira o conjunto de componentes disponíveis no Azure Machine Learning.