Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questo articolo descrive come usare il componente Selezione funzionalità basata su filtri nella finestra di progettazione di Azure Machine Learning. Questo componente consente di identificare le colonne nel set di dati di input con la massima potenza predittiva.
In generale, la selezione delle caratteristiche si riferisce al processo di applicazione di test statistici agli input, dato un output specificato. L'obiettivo è di determinare quali colonne sono più predittive dell'output. Il componente Selezione funzionalità basata su filtro fornisce più algoritmi di selezione delle funzionalità tra cui scegliere. Il componente include metodi di correlazione come la correlazione di Pearson e i valori chi quadrato.
Quando si usa il componente Selezione funzionalità basata su filtro, si fornisce un set di dati e si identifica la colonna contenente l'etichetta o la variabile dipendente. Specificare quindi un singolo metodo da usare per misurare l'importanza delle caratteristiche.
Il componente restituisce un set di dati che contiene le colonne di funzionalità migliori, come classificato in base alla potenza predittiva. Restituisce anche i nomi delle funzionalità e i relativi punteggi dalla metrica selezionata.
Selezione delle funzionalità basate su filtro
Questo componente per la selezione delle funzionalità è denominato "basato su filtro" perché si usa la metrica selezionata per trovare attributi irrilevanti. Si filtrano quindi le colonne ridondanti dal modello. Si sceglie una singola misura statistica adatta ai dati e il componente calcola un punteggio per ogni colonna di funzionalità. Le colonne vengono restituite classificate in base ai punteggi delle caratteristiche.
Scegliendo le funzionalità appropriate, è possibile migliorare potenzialmente l'accuratezza e l'efficienza della classificazione.
In genere si usano solo le colonne con i punteggi migliori per compilare il modello predittivo. Le colonne con punteggi di selezione delle caratteristiche scarse possono essere lasciate nel set di dati e ignorate durante la compilazione di un modello.
Come scegliere una metrica di selezione delle funzionalità
Il componente Selezione funzionalità basata su filtro offre un'ampia gamma di metriche per la valutazione del valore delle informazioni in ogni colonna. Questa sezione fornisce una descrizione generale di ogni metrica e come viene applicata. È possibile trovare requisiti aggiuntivi per l'uso di ogni metrica nelle note tecniche e nelle istruzioni per la configurazione di ogni componente.
Correlazione di Pearson
La statistica di correlazione di Pearson, o il coefficiente di correlazione di Pearson, è nota anche nei modelli statistici come valore
r. Per due variabili, restituisce un valore che indica il livello di forza della correlazione.Il coefficiente di correlazione di Pearson viene calcolato prendendo la covarianza di due variabili e dividendo per il prodotto delle loro deviazioni standard. Le modifiche della scala nelle due variabili non influiscono sul coefficiente.
Chi quadrato
Il test chi quadrato bidirezionale è un metodo statistico che misura la prossimità dei valori previsti ai risultati effettivi. Il metodo presuppone che le variabili siano casuali e disegnate da un campione adeguato di variabili indipendenti. La statistica chi quadrato risultante indica la distanza dei risultati dal risultato previsto (casuale).
Suggerimento
Se è necessaria un'opzione diversa per il metodo di selezione delle funzionalità personalizzate, usare il componente Execute R Script (Esegui script R).
Come configurare la selezione delle funzionalità basata su filtro
Si sceglie una metrica statistica standard. Il componente calcola la correlazione tra una coppia di colonne: la colonna etichetta e una colonna di funzionalità.
Aggiungere il componente Selezione funzionalità basata su filtro alla pipeline. È possibile trovarlo nella categoria Selezione funzionalità nella finestra di progettazione.
Connettere un set di dati di input contenente almeno due colonne che sono potenziali funzionalità.
Per assicurarsi che una colonna venga analizzata e che venga generato un punteggio di funzionalità, usare il componente Modifica metadati per impostare l'attributo IsFeature .
Importante
Assicurarsi che le colonne specificate come input siano funzionalità potenziali. Ad esempio, una colonna che contiene un singolo valore non ha alcun valore informativo.
Se si sa che alcune colonne potrebbero rendere le funzionalità non utili, è possibile rimuoverle dalla selezione delle colonne. È anche possibile usare il componente Modifica metadati per contrassegnarli come categorici.
Per Metodo di assegnazione dei punteggi delle funzionalità, scegliere uno dei metodi statistici stabiliti seguenti da usare per calcolare i punteggi.
metodo Requisiti Correlazione di Pearson L'etichetta può essere di tipo testo o numerico. Le funzionalità devono essere numeriche. Chi quadrato Le etichette e le funzionalità possono essere di tipo testo o numerico. Usare questo metodo per l'importanza della funzionalità di calcolo per due colonne categoriche. Suggerimento
Se si modifica la metrica selezionata, verranno reimpostate tutte le altre selezioni. Assicurarsi quindi di impostare prima questa opzione.
Selezionare l'opzione Opera solo sulle colonne di funzionalità per generare un punteggio solo per le colonne contrassegnate in precedenza come funzionalità.
Se si deseleziona questa opzione, il componente creerà un punteggio per qualsiasi colonna che soddisfi in caso contrario i criteri, fino al numero di colonne specificate in Numero di funzionalità desiderate.
Per Colonna di destinazione selezionare Avvia selettoredi colonna per scegliere la colonna etichetta in base al nome o al relativo indice. Gli indici sono basati su un solo.
Per tutti i metodi che coinvolgono la correlazione statistica è necessaria una colonna etichetta. Il componente restituisce un errore in fase di progettazione se non si sceglie alcuna colonna etichetta o più colonne etichetta.Per Numero di funzionalità desiderate, immettere il numero di colonne di funzionalità che si desidera restituire come risultato:
Il numero minimo di funzionalità che è possibile specificare è uno, ma è consigliabile aumentare questo valore.
Se il numero specificato di funzionalità desiderate è maggiore del numero di colonne nel set di dati, vengono restituite tutte le funzionalità. Vengono restituite anche le caratteristiche con zero punteggi.
Se si specifica un numero inferiore di colonne di risultati rispetto alle colonne di funzionalità, le funzionalità vengono classificate in base al punteggio decrescente. Vengono restituite solo le funzionalità principali.
Inviare la pipeline.
Importante
Se si intende usare la selezione delle funzionalità basate su filtro nell'inferenza, è necessario usare Select Columns Transform (Seleziona trasformazione colonne) per archiviare il risultato selezionato della funzionalità e Applica trasformazione per applicare la trasformazione selezionata dalla funzionalità al set di dati di assegnazione dei punteggi.
Fare riferimento allo screenshot seguente per compilare la pipeline per assicurarsi che le selezioni di colonna siano le stesse per il processo di assegnazione dei punteggi.
Risultati
Al termine dell'elaborazione:
Per visualizzare un elenco completo delle colonne delle funzionalità analizzate e dei relativi punteggi, fare clic con il pulsante destro del mouse sul componente e selezionare Visualizza.
Per visualizzare il set di dati in base ai criteri di selezione delle funzionalità, fare clic con il pulsante destro del mouse sul componente e scegliere Visualizza.
Se il set di dati contiene meno colonne del previsto, controllare le impostazioni del componente. Controllare anche i tipi di dati delle colonne fornite come input. Ad esempio, se si imposta Numero di funzionalità desiderate su 1, il set di dati di output contiene solo due colonne: la colonna etichetta e la colonna delle funzionalità con classificazione più elevata.
Note tecniche
Dettagli sull'implementazione
Se si usa la correlazione di Pearson su una caratteristica numerica e un'etichetta categorica, il punteggio della funzionalità viene calcolato come segue:
Per ogni livello nella colonna categorica, calcolare la media condizionale della colonna numerica.
Correlare la colonna dei mezzi condizionali con la colonna numerica.
Requisiti
Non è possibile generare un punteggio di selezione delle funzionalità per qualsiasi colonna designata come colonna Etichetta o Punteggio .
Se si tenta di usare un metodo di assegnazione dei punteggi con una colonna di un tipo di dati che il metodo non supporta, il componente genererà un errore. In alternativa, alla colonna verrà assegnato un punteggio zero.
Se una colonna contiene valori logici (true/false), vengono elaborati come
True = 1eFalse = 0.Una colonna non può essere una funzionalità se è stata designata come etichetta o punteggio.
Modalità di gestione dei valori mancanti
Non è possibile specificare come colonna di destinazione (etichetta) qualsiasi colonna con tutti i valori mancanti.
Se una colonna contiene valori mancanti, il componente li ignora quando calcola il punteggio per la colonna.
Se una colonna designata come colonna di funzionalità contiene tutti i valori mancanti, il componente assegna un punteggio zero.
Passaggi successivi
Vedere il set di componenti disponibili per Azure Machine Learning.