Condividi tramite


Selezionare Colonne nel componente Set di dati

Questo articolo descrive un componente nella finestra di progettazione di Azure Machine Learning.

Usare questo componente per scegliere un subset di colonne da usare nelle operazioni downstream. Il componente non rimuove fisicamente le colonne dal set di dati di origine; crea invece un subset di colonne, molto simile a una visualizzazione o proiezione del database.

Questo componente è utile quando è necessario limitare le colonne disponibili per un'operazione downstream o se si desidera ridurre le dimensioni del set di dati rimuovendo le colonne non necessarie.

Le colonne del set di dati vengono restituite nello stesso ordine dei dati originali, anche se vengono specificate in un ordine diverso.

Uso

Questo componente non ha parametri. Si usa il selettore di colonna per scegliere le colonne da includere o escludere.

Scegliere colonne in base al nome

Nel componente sono disponibili più opzioni per la scelta di colonne in base al nome:

  • Filtrare e cercare

    Fare clic sull'opzione BY NAME .

    Se si è connessi un set di dati già popolato, dovrebbe essere visualizzato un elenco di colonne disponibili. Se non vengono visualizzate colonne, potrebbe essere necessario eseguire componenti upstream per visualizzare l'elenco di colonne.

    Per filtrare l'elenco, digitare nella casella di ricerca. Ad esempio, se si digita la lettera nella casella di ricerca, l'elenco viene filtrato per visualizzare i nomi di colonna che contengono la lettera ww.

    Selezionare colonne e fare clic sul pulsante freccia destra per spostare le colonne selezionate nell'elenco nel riquadro a destra.

    • Per selezionare un intervallo continuo di nomi di colonna, premere MAIUSC + Clic.
    • Per aggiungere singole colonne alla selezione, premere CTRL + Click.

    Fare clic sul pulsante segno di spunta per salvare e chiudere.

  • Usare i nomi in combinazione con altre regole

    Fare clic sull'opzione WITH RULES .

    Scegliere una regola, ad esempio la visualizzazione di colonne di un tipo di dati specifico.

    Fare quindi clic su singole colonne del tipo in base al nome per aggiungerle all'elenco di selezione.

  • Digitare o incollare un elenco delimitato da virgole di nomi di colonna

    Se il set di dati è ampio, potrebbe essere più semplice usare indici o elenchi generati di nomi, anziché selezionare le colonne singolarmente. Supponendo di aver preparato l'elenco in anticipo:

    1. Fare clic sull'opzione WITH RULES .
    2. Selezionare Nessuna colonna, selezionare Includi e quindi fare clic all'interno della casella di testo con il segno esclamativo rosso.
    3. Incollare o digitare un elenco delimitato da virgole di nomi di colonna convalidati in precedenza. Non è possibile salvare il componente se una colonna ha un nome non valido, quindi assicurarsi di controllare i nomi in anticipo.

    È anche possibile usare questo metodo per specificare un elenco di colonne usando i relativi valori di indice.

Scegliere per tipo

Se si usa l'opzione WITH RULES , è possibile applicare più condizioni nelle selezioni di colonna. Ad esempio, potrebbe essere necessario ottenere solo colonne di funzionalità di un tipo di dati numerico.

L'opzione BEGIN WITH determina il punto di partenza ed è importante per comprendere i risultati.

  • Se si seleziona l'opzione ALL COLUMNS , tutte le colonne vengono aggiunte all'elenco. È quindi necessario usare l'opzione Escludi per rimuovere colonne che soddisfano determinate condizioni.

    Ad esempio, è possibile iniziare con tutte le colonne e quindi rimuovere colonne per nome o per tipo.

  • Se si seleziona l'opzione NO COLUMNS , l'elenco di colonne inizia vuoto. Specificare quindi le condizioni per aggiungere colonne all'elenco.

    Se si applicano più regole, ogni condizione è aggiuntiva. Si supponga, ad esempio, di iniziare senza colonne e quindi aggiungere una regola per ottenere tutte le colonne numeriche. Nel set di dati prezzi automobile, che comporta 16 colonne. Fare quindi clic sul + segno per aggiungere una nuova condizione e selezionare Includi tutte le funzionalità. Il set di dati risultante include tutte le colonne numeriche, oltre a tutte le colonne di funzionalità, incluse alcune colonne di funzionalità stringa.

Scegliere per indice di colonna

L'indice di colonna fa riferimento all'ordine della colonna all'interno del set di dati originale.

  • Le colonne vengono numerate in sequenza a partire da 1.
  • Per ottenere un intervallo di colonne, usare un trattino.
  • Specifiche aperte, 1- ad esempio o -3 non consentite.
  • I valori di indice duplicati (o i nomi di colonna) non sono consentiti e potrebbero causare un errore.

Ad esempio, presupponendo che il set di dati abbia almeno otto colonne, è possibile incollare in uno degli esempi seguenti per restituire più colonne non contigue:

  • 8,1-4,6
  • 1,3-8
  • 1,3-6,4

l'esempio finale non genera un errore; restituisce tuttavia una singola istanza di colonna 4.

Modificare l'ordine delle colonne

L'opzione Consenti duplicati e mantieni l'ordine di colonna nella selezione inizia con un elenco vuoto e aggiunge colonne specificate per nome o per indice. A differenza di altre opzioni, che restituiscono sempre colonne nell'ordine "naturale", questa opzione restituisce le colonne nell'ordine di nome o elenco.

Ad esempio, in un set di dati con le colonne Col1, Col2, Col3 e Col4, è possibile invertire l'ordine delle colonne e lasciare fuori la colonna 2, specificando uno degli elenchi seguenti:

  • Col4, Col3, Col1
  • 4,3,1

Passaggi successivi

Vedere il set di componenti disponibili per Azure Machine Learning.