Condividi tramite


Fisher Linear Discriminant Analysis

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Identifica la combinazione lineare delle variabili di funzione che può meglio raggruppare i dati in classi separate

Categoria: Moduli di selezione delle funzionalità

Nota

Si applica a: Machine Learning Studio (versione classica)

Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.

Panoramica del modulo

Questo articolo descrive come usare il modulo linear di analisi lineare della discriminante di Machine Learning Studio (versione classica) per creare un nuovo set di dati di funzionalità che acquisisce la combinazione di funzionalità che meglio separa due o più classi.

Questo metodo viene spesso usato per la riduzione della dimensionalità, in quanto proietta un set di funzioni su uno spazio di funzioni ridotto mantenendo al contempo le informazioni relative alla discriminazione tra classi. In questo modo è possibile ridurre i costi di calcolo per un'attività di classificazione specifica e prevenire l'overfitting.

Per generare i punteggi, specificare una colonna etichetta e un set di colonne di caratteristiche numeriche come input. L'algoritmo determina la combinazione ottimale delle colonne di input che separa in modo lineare ogni gruppi di dati, riducendo al contempo le distanze tra ogni gruppo. Il modulo restituisce un set di dati contenente le caratteristiche compatte e trasformate, insieme a una trasformazione che è possibile salvare e applicare a un altro set di dati.

Altre informazioni sull'analisi discriminante lineare

L'analisi lineare discriminante è simile all'analisi della varianza (ANOVA) perché funziona confrontando i mezzi delle variabili. Come ANOVA, si basa su questi presupposti:

  • I predittori sono indipendenti
  • Le funzioni di densità di probabilità condizionale di ogni campione vengono normalmente distribuite
  • Le varianze tra i gruppi sono simili

L'analisi lineare discriminante è talvolta abbreviata in LDA, ma è facilmente confusa con l'allocazione Latent Dirichlet. Le tecniche sono completamente diverse, quindi in questa documentazione vengono utilizzati i nomi completi laddove possibile.

Come configurare l'analisi lineare discriminante

  1. Aggiungere il set di dati di input e verificare che i dati di input soddisfino questi requisiti:

    • I dati devono essere il più completi possibile. Le righe con valori mancanti vengono ignorate.
    • Si prevede che i valori presentino una distribuzione normale. Prima di usare l'analisi lineare dei discriminanti di Linear Linear, esaminare i dati per gli outlier o testare la distribuzione.
    • È necessario avere meno predittori rispetto ai campioni.
    • Rimuovere tutte le colonne non numeriche. L'algoritmo esamina tutte le colonne numeriche valide incluse negli input e restituisce un errore se vengono incluse colonne non valide. Se è necessario escludere colonne numeriche, aggiungere un modulo Select Columns in Dataset (Seleziona colonne nel set di dati) prima di Linear Discriminante Analysis (Analisi della discriminante lineare Discriminante) per creare una vista contenente solo le colonne da analizzare. È possibile aggiungere di nuovo le colonne in un secondo momento usando Aggiungi colonne. L'ordine originale delle righe viene mantenuto.
  2. Connessione i dati di input al modulo Linear Discriminante Analysis di Linear Discriminante di Linear.

  3. Per La colonna Etichette di classe fare clic su Avvia selettore di colonna e scegliere una colonna etichetta.

  4. In Number of feature extractors (Numero di estrattori di caratteristiche) digitare il numero di colonne desiderato come risultato.

    Ad esempio, se il set di dati contiene otto colonne di caratteristiche numeriche, 3 è possibile digitare per comprimerle in un nuovo spazio di funzionalità ridotto di solo tre colonne.

    È importante comprendere che le colonne di output non corrispondono esattamente alle colonne di input, ma rappresentano una trasformazione compatta dei valori nelle colonne di input.

    Se si usa 0 come valore per Numero di estrattori di caratteristiche e vengono usate n colonne come input, vengono restituiti n estrattori di funzionalità, contenenti nuovi valori che rappresentano lo spazio delle caratteristiche n-dimensionali.

  5. Eseguire l'esperimento.

Risultati

L'algoritmo determina la combinazione di valori nelle colonne di input che separa in modo lineare ogni gruppo di dati riducendo al minimo le distanze all'interno di ogni gruppo e crea due output:

  • Funzionalità trasformate. Set di dati contenente il numero specificato di colonne dell'estrattore di caratteristiche, denominate col1, col2, col3 e così via. L'output include anche la classe o la variabile etichetta.

    È possibile usare questo set compatto di valori per il training di un modello.

  • Trasformazione dell'analisi della discriminante lineare dei costi. Trasformazione che è possibile salvare e quindi applicare a un set di dati con lo stesso schema. Ciò è utile se si analizzano molti set di dati dello stesso tipo e si vuole applicare la stessa riduzione delle funzionalità a ognuno di essi. Il set di dati a cui viene applicato deve avere lo stesso schema.

Esempio

Per esempi di selezione delle funzionalità in Machine Learning, vedere l'Azure AI Gallery:

Note tecniche

Questa sezione contiene informazioni dettagliate sull'implementazione, suggerimenti e risposte alle domande frequenti.

Suggerimenti per l'uso

  • Questo metodo funziona solo sulle variabili continue e non sulle variabili categoriche o ordinali.

  • Durante il calcolo della matrice di trasformazione, le righe con i valori mancanti vengono ignorate.

  • Se si salva una trasformazione da un esperimento, le trasformazioni calcolate dall'esperimento originale vengono riapplicate a ogni nuovo set di dati e non vengono ricalcolate. Pertanto, se si vuole calcolare un nuovo set di funzionalità per ogni set di dati, usare una nuova istanza di Linear Dis scarinant Analysis di Linear Per ogni set di dati.

Dettagli dell'implementazione

Il set di dati delle funzionalità viene trasformato usando gli eigenvector. Gli eigenvector per il set di dati di input vengono calcolati in base alle colonne di funzionalità fornite, chiamate anche matrice discriminante.

L'output della trasformazione del modulo contiene questi eigenvector, che possono essere applicati per trasformare un altro set di dati con lo stesso schema.

Per altre informazioni su come vengono calcolati gli eigenvalue, vedere questo documento (PDF): Estrazione di funzionalità basata su eigenvector per la classificazione. di Tymbal, Puuronen e altri.

Input previsti

Nome Tipo Descrizione
Set di dati Tabella dati Set di dati di input

Parametri del modulo

Nome Tipo Intervallo Facoltativo Predefinito Descrizione
Class labels column ColumnSelection Necessario Nessuno Consente di selezionare la colonna che contiene le etichette delle classi categoriche
Number of feature extractors Integer >=0 Necessario 0 Numero di estrattori di funzioni da usare. Se è zero, verranno usati tutti gli estrattori di funzioni.

Output

Nome Tipo Descrizione
Funzioni trasformate Tabella dati Funzionalità di analisi lineare discriminante di Fisher trasformate nello spazio dell'eigenvector
Trasformazione dell'analisi discriminante lineare di Fisher Interfaccia ITransform Trasformazione dell'analisi discriminante lineare di Fisher

Eccezioni

Eccezione Descrizione
Errore 0001 L'eccezione si verifica se non è possibile trovare una o più colonne specificate del set di dati.
Errore 0003 L'eccezione si verifica se uno o più input sono null o vuoti.
Errore 0017 Si verifica un'eccezione se il tipo di una o più colonne specificate non è supportato dal modulo attuale.

Per un elenco degli errori specifici dei moduli di Studio (versione classica), vedere Machine Learning codici di errore.

Per un elenco delle eccezioni API, vedere Machine Learning di errore dell'API REST.

Vedi anche

Selezione funzionalità
Filter Based Feature Selection (Selezione caratteristiche basata su filtro)
Analisi dei componenti principali