Condividi tramite


Algoritmo di Regressione Logistica Microsoft

La regressione logistica è una tecnica statistica nota usata per la modellazione dei risultati binari.

Esistono diverse implementazioni della regressione logistica nella ricerca statistica, usando tecniche di apprendimento diverse. L'algoritmo Microsoft Logistic Regression è stato implementato usando una variante dell'algoritmo Microsoft Neural Network. Questo algoritmo condivide molte delle qualità delle reti neurali, ma è più semplice eseguire il training.

Uno dei vantaggi della regressione logistica è che l'algoritmo è altamente flessibile, accettando qualsiasi tipo di input e supporta diverse attività analitiche:

  • Usare i dati demografici per eseguire stime sui risultati, ad esempio il rischio di una determinata malattia.

  • Esplorare e ponderare i fattori che contribuiscono a un risultato. Ad esempio, trovare i fattori che influenzano i clienti per effettuare una visita ripetuta a un negozio.

  • Classificare documenti, messaggi di posta elettronica o altri oggetti con molti attributi.

Esempio

Si consideri un gruppo di persone che condividono informazioni demografiche simili e che acquistano prodotti dalla società Adventure Works. Modellando i dati da correlare a un risultato specifico, ad esempio l'acquisto di un prodotto di destinazione, è possibile vedere come le informazioni demografiche contribuiscono alla probabilità di acquisto del prodotto di destinazione.

Funzionamento dell'algoritmo

La regressione logistica è un metodo statistico noto per determinare il contributo di più fattori a una coppia di risultati. L'implementazione Di Microsoft usa una rete neurale modificata per modellare le relazioni tra input e output. L'effetto di ogni input sull'output viene misurato e i vari input vengono ponderati nel modello finito. La regressione logistica del nome deriva dal fatto che la curva dei dati viene compressa usando una trasformazione logistica, per ridurre al minimo l'effetto dei valori estremi. Per altre informazioni sull'implementazione e su come personalizzare l'algoritmo, vedere Microsoft Logistic Regression Algorithm Technical Reference (Riferimento tecnico sugli algoritmi di regressione logistica Microsoft).

Dati necessari per i modelli di regressione logistica

Quando si preparano i dati da usare per il training di un modello di regressione logistica, è necessario comprendere i requisiti per l'algoritmo specifico, inclusa la quantità di dati necessari e il modo in cui vengono usati i dati.

I requisiti per un modello di regressione logistica sono i seguenti:

Una singola colonna chiave Ogni modello deve contenere una colonna numerica o di testo che identifica in modo univoco ogni record. Le chiavi composte non sono consentite.

Colonne di input Ogni modello deve contenere almeno una colonna di input contenente i valori utilizzati come fattori nell'analisi. È possibile avere tutte le colonne di input desiderate, ma a seconda del numero di valori in ogni colonna, l'aggiunta di colonne aggiuntive può aumentare il tempo necessario per eseguire il training del modello.

Almeno una colonna stimabile Il modello deve contenere almeno una colonna stimabile di qualsiasi tipo di dati, inclusi i dati numerici continui. I valori della colonna stimabile possono anche essere considerati come input per il modello oppure è possibile specificare che venga usato solo per la stima. Le tabelle nidificate non sono consentite per le colonne prevedibili, ma possono essere usate come dati di input.

Per informazioni più dettagliate sui tipi di contenuto e sui tipi di dati supportati per i modelli di regressione logistica, vedere la sezione Requisiti di Microsoft Logistic Regression Algorithm Technical Reference (Informazioni tecniche sull'algoritmo di regressione logistica Microsoft).

Visualizzazione di un modello di regressione logistica

Per esplorare il modello, è possibile usare Microsoft Neural Network Viewer o Microsoft Generic Content Tree Viewer.

Quando si visualizza il modello usando Microsoft Neural Network Viewer, Analysis Services mostra i fattori che contribuiscono a un determinato risultato, classificati in base alla loro importanza. È possibile scegliere un attributo e valori da confrontare. Per ulteriori informazioni, consultare Visualizzare un modello utilizzando Microsoft Neural Network Viewer.

Per altre informazioni, è possibile esplorare i dettagli del modello usando Microsoft Generic Content Tree Viewer. Il contenuto del modello per un modello di regressione logistica include un nodo marginale che mostra tutti gli input usati per il modello e le subnet per gli attributi stimabili. Per altre informazioni, vedere Contenuto del modello di data mining per i modelli di regressione logistica (Analysis Services - Data mining).

Creazione di stime

Dopo aver eseguito il training del modello, è possibile creare query sul contenuto del modello per ottenere i coefficienti di regressione e altri dettagli oppure usare il modello per eseguire stime.

Osservazioni:

  • Non supporta il drill-through. Ciò è dovuto al fatto che la struttura dei nodi nel modello di data mining non corrisponde necessariamente direttamente ai dati sottostanti.

  • Non supporta la creazione di dimensioni per l'analisi dei dati.

  • Supporta l'uso di modelli di data mining OLAP.

  • Non supporta l'uso di Predictive Model Markup Language (PMML) per creare modelli di data mining.

Vedere anche

Contenuto del modello di data mining per i modelli di regressione logistica (Analysis Services - Data mining)
Riferimento tecnico per l'algoritmo Microsoft Logistic Regression
Esempi di query sul modello di regressione logistica