Selecionar Colunas no componente Conjunto de Dados

Este artigo descreve um componente no estruturador do Azure Machine Learning.

Utilize este componente para escolher um subconjunto de colunas a utilizar em operações a jusante. O componente não remove fisicamente as colunas do conjunto de dados de origem; em vez disso, cria um subconjunto de colunas, tal como uma vista de base de dados ou projeção.

Este componente é útil quando precisa de limitar as colunas disponíveis para uma operação a jusante ou se quiser reduzir o tamanho do conjunto de dados ao remover colunas desnecessárias.

As colunas no conjunto de dados são saídas pela mesma ordem que nos dados originais, mesmo que as especifique por uma ordem diferente.

Como utilizar

Este componente não tem parâmetros. Utilize o seletor de colunas para escolher as colunas a incluir ou excluir.

Escolher colunas por nome

Existem várias opções no componente para escolher colunas por nome:

  • Filtrar e procurar

    Clique na opção POR NOME .

    Se tiver ligado um conjunto de dados que já está preenchido, deverá ser apresentada uma lista de colunas disponíveis. Se não forem apresentadas colunas, poderá ter de executar componentes a montante para ver a lista de colunas.

    Para filtrar a lista, escreva na caixa de pesquisa. Por exemplo, se escrever a letra w na caixa de pesquisa, a lista é filtrada para mostrar os nomes das colunas que contêm a letra w.

    Selecione colunas e clique no botão de seta para a direita para mover as colunas selecionadas para a lista no painel da direita.

    • Para selecionar um intervalo contínuo de nomes de colunas, prima Shift + Clique.
    • Para adicionar colunas individuais à seleção, prima Ctrl + Clique.

    Clique no botão de marca de verificação para guardar e fechar.

  • Utilizar nomes em combinação com outras regras

    Clique na opção COM REGRAS .

    Escolha uma regra, como mostrar colunas de um tipo de dados específico.

    Em seguida, clique em colunas individuais desse tipo por nome, para adicioná-las à lista de seleção.

  • Escrever ou colar uma lista separada por vírgulas de nomes de colunas

    Se o conjunto de dados for amplo, poderá ser mais fácil utilizar índices ou listas geradas de nomes, em vez de selecionar colunas individualmente. Partindo do princípio de que preparou a lista com antecedência:

    1. Clique na opção COM REGRAS .
    2. Selecione Sem colunas, selecione Incluir e, em seguida, clique dentro da caixa de texto com o ponto de exclamação vermelho.
    3. Cole ou escreva uma lista separada por vírgulas de nomes de colunas validados anteriormente. Não pode guardar o componente se uma coluna tiver um nome inválido, por isso certifique-se de que verifica previamente os nomes.

    Também pode utilizar este método para especificar uma lista de colunas com os respetivos valores de índice.

Escolher por tipo

Se utilizar a opção COM REGRAS , pode aplicar várias condições nas seleções de colunas. Por exemplo, poderá ter de obter apenas colunas de funcionalidades de um tipo de dados numérico.

A opção COMEÇAR COM determina o ponto de partida e é importante para compreender os resultados.

  • Se selecionar a opção TODAS as COLUNAS , todas as colunas serão adicionadas à lista. Em seguida, tem de utilizar a opção Excluir para remover colunas que cumpram determinadas condições.

    Por exemplo, pode começar com todas as colunas e, em seguida, remover colunas por nome ou por tipo.

  • Se selecionar a opção SEM COLUNAS , a lista de colunas começa vazia. Em seguida, especifique as condições para adicionar colunas à lista.

    Se aplicar múltiplas regras, cada condição é aditiva. Por exemplo, digamos que começa sem colunas e, em seguida, adiciona uma regra para obter todas as colunas numéricas. No conjunto de dados Preço do automóvel, isto resulta em 16 colunas. Em seguida, clique no + sinal para adicionar uma nova condição e selecione Incluir todas as funcionalidades. O conjunto de dados resultante inclui todas as colunas numéricas, além de todas as colunas de funcionalidades, incluindo algumas colunas de funcionalidades de cadeia.

Escolher por índice de coluna

O índice de colunas refere-se à ordem da coluna no conjunto de dados original.

  • As colunas são numeradas sequencialmente a partir de 1.
  • Para obter um intervalo de colunas, utilize um hífen.
  • As especificações abertas, como 1- ou -3 não, são permitidas.
  • Não são permitidos valores de índice duplicados (ou nomes de colunas) e podem resultar num erro.

Por exemplo, partindo do princípio de que o conjunto de dados tem pelo menos oito colunas, pode colar em qualquer um dos seguintes exemplos para devolver múltiplas colunas não contíguas:

  • 8,1-4,6
  • 1,3-8
  • 1,3-6,4

o exemplo final não resulta num erro; no entanto, devolve uma única instância da coluna 4.

Alterar a ordem das colunas

A opção Permitir duplica e preservar a ordem das colunas na seleção começa com uma lista vazia e adiciona colunas que especificar por nome ou por índice. Ao contrário de outras opções, que devolvem sempre colunas na sua "ordem natural", esta opção produz as colunas pela ordem que lhes dá um nome ou lista.

Por exemplo, num conjunto de dados com as colunas Col1, Col2, Col3 e Col4, pode inverter a ordem das colunas e deixar de fora a coluna 2 ao especificar uma das seguintes listas:

  • Col4, Col3, Col1
  • 4,3,1

Passos seguintes

Veja o conjunto de componentes disponíveis para o Azure Machine Learning.