microsoftml.rx_logistic_regression: regressione logistica

Utilizzo

microsoftml.rx_logistic_regression(formula: str,
    data: [revoscalepy.datasource.RxDataSource.RxDataSource,
    pandas.core.frame.DataFrame], method: ['binary',
    'multiClass'] = 'binary', l2_weight: float = 1,
    l1_weight: float = 1, opt_tol: float = 1e-07,
    memory_size: int = 20, init_wts_diameter: float = 0,
    max_iterations: int = 2147483647,
    show_training_stats: bool = False, sgd_init_tol: float = 0,
    train_threads: int = None, dense_optimizer: bool = False,
    normalize: ['No', 'Warn', 'Auto', 'Yes'] = 'Auto',
    ml_transforms: list = None, ml_transform_vars: list = None,
    row_selection: str = None, transforms: dict = None,
    transform_objects: dict = None, transform_function: str = None,
    transform_variables: list = None,
    transform_packages: list = None,
    transform_environment: dict = None, blocks_per_read: int = None,
    report_progress: int = None, verbose: int = 1,
    ensemble: microsoftml.modules.ensemble.EnsembleControl = None,
    compute_context: revoscalepy.computecontext.RxComputeContext.RxComputeContext = None)

Descrizione

Regressione logistica di Machine Learning

Dettagli

La regressione logistica è un metodo di classificazione usato per prevedere il valore di una variabile dipendente categorica dalla sua relazione con una o più variabili indipendenti che si presume abbiano una distribuzione logistica. Se la variabile dipendente ha solo due valori possibili (esito positivo/errore), la regressione logistica è binaria. Se la variabile dipendente ha più di due valori possibili (gruppo sanguigno dati i risultati dei test diagnostici), la regressione logistica è multinomiale.

La tecnica di ottimizzazione usata per rx_logistic_regression è la L-BFGS (Broyden-Fletcher-Goldfarb-Shanno) a memoria limitata. Sia gli algoritmi L-BFGS che quelli BFGS regolari usano metodi quasi-newtoniani per stimare la matrice hessiana intensiva a livello di calcolo nell'equazione usata dal metodo di Newton per calcolare i passaggi. L'approssimazione L-BFGS usa tuttavia solo una quantità limitata di memoria per calcolare la direzione del passaggio successivo, quindi è particolarmente adatta per problemi con un gran numero di variabili. Il parametro memory_size consente di specificare il numero di posizioni e gradienti passati da archiviare per l'uso nel calcolo del passaggio successivo.

Questo strumento di apprendimento può usare la regolarizzazione della rete elastica: una combinazione lineare di regolarizzazioni L1 (lazo) e L2 (ridge). La regolarizzazione è un metodo che può rendere più trattabile un problema mal posto imponendo vincoli che forniscono informazioni per integrare i dati e che impediscono l'overfitting penalizzando i modelli con valori di coefficiente estremi. Ciò può migliorare la generalizzazione del modello appreso selezionando la complessità ottimale nel compromesso distorsione-varianza. La regolarizzazione funziona aggiungendo la penalità associata ai valori dei coefficienti all'errore dell'ipotesi. Un modello accurato con valori di coefficiente estremi sarebbe penalizzato di più, mentre un modello meno accurato con valori più conservativi sarebbe penalizzato di meno. La regolarizzazione L1 e L2 ha effetti e usi diversi che sono complementari, sotto certi aspetti.

  • l1_weight: applicabile a modelli di tipo sparse, quando si lavora con dati ad alta dimensione. Esegue il pull di piccole funzionalità associate a pesi che sono relativamente poco importanti verso lo 0.

  • l2_weight: è preferibile per i dati che non sono di tipo sparse. Esegue il pull di grandi pesi verso lo zero.

L'aggiunta della penalità della cresta alla regolarizzazione supera alcune delle limitazioni del lasso. Può migliorare la sua accuratezza predittiva, ad esempio, quando il numero di predittori è maggiore della dimensione del campione. Se x = l1_weight e y = l2_weight, ax + by = c definisce l'intervallo lineare dei termini di regolarizzazione. I valori predefiniti di x e y sono entrambi 1. Una regolarizzazione aggressiva può danneggiare la capacità predittiva escludendo variabili importanti dal modello. La scelta dei valori ottimali per i parametri di regolarizzazione è quindi importante per le prestazioni del modello di regressione logistica.

Argomenti

formula

La formula descritta nei termini di interazione revoscalepy.rx_formula e F() non è attualmente supportata in microsoftml.

data

Oggetto origine dati o stringa di caratteri che specifica un file con estensione xdf o un oggetto frame di dati.

method

Stringa di caratteri che specifica il tipo di regressione logistica: "binary" per la regressione logistica di classificazione binaria predefinita o "multiClass" per la regressione logistica multinomiale.

l2_weight

Il peso di regolarizzazione L2. Il suo valore deve essere maggiore o uguale a 0 e il valore predefinito è impostato su 1.

l1_weight

Il peso di regolarizzazione L1. Il suo valore deve essere maggiore o uguale a 0 e il valore predefinito è impostato su 1.

opt_tol

Valore di soglia per la convergenza dell'ottimizzatore. Se il miglioramento tra le iterazioni è inferiore alla soglia, l'algoritmo si interrompe e restituisce il modello corrente. I valori più piccoli sono più lenti, ma più precisi. Il valore predefinito è 1e-07.

memory_size

Dimensione della memoria per L-BFGS, che specifica il numero di posizioni e gradienti passati da archiviare per il calcolo del passaggio successivo. Questo parametro di ottimizzazione limita la quantità di memoria usata per calcolare l'entità e la direzione del passaggio successivo. Quando si specifica una quantità di memoria inferiore, il training è più veloce ma meno accurato. Deve essere maggiore o uguale a 1 e il valore predefinito è 20.

max_iterations

Imposta il numero massimo di iterazioni. Dopo questo numero di passaggi, l'algoritmo si arresta anche se non ha soddisfatto i criteri di convergenza.

show_training_stats

Specificare True per visualizzare le statistiche dei dati di training e del modello sottoposto a training; altrimenti False. Il valore predefinito è False. Per altre informazioni sulle statistiche del modello, vedere summary.ml_model().

sgd_init_tol

Impostare su un numero maggiore di 0 per usare la discesa stocastica del gradiente (SGD) per trovare i parametri iniziali. Un set di valori diverso da zero specifica la tolleranza usata dal metodo SGD per determinare la convergenza. Il valore predefinito è 0 e specifica che il metodo SGD non viene usato.

init_wts_diameter

Imposta il diametro dei pesi iniziali che specifica l'intervallo da cui vengono prelevati i valori per i pesi iniziali. Questi pesi vengono inizializzati in modo casuale all'interno di questo intervallo. Se ad esempio si specifica che il diametro è d, i pesi vengono distribuiti uniformemente tra -d/2 e d/2. Il valore predefinito è 0, che specifica che tutti i pesi vengano inizializzati in 0.

train_threads

Numero di thread da usare nel training del modello. Deve essere impostato sul numero di core presenti nel computer. Si noti che il multithreading L-BFGS prova a caricare il set di dati in memoria. In caso di problemi di memoria insufficiente, impostare train_threads su 1 per disattivare il multithreading. Se None, il numero di thread da usare viene determinato internamente. Il valore predefinito è None.

dense_optimizer

Se True, forza la densificazione dei vettori di ottimizzazione interni. Se False, consente all'ottimizzatore di regressione logistica di usare stati interni di tipo sparse o denso come ritiene appropriato. L'impostazione di denseOptimizer su True richiede che l'ottimizzatore interno usi uno stato interno denso, che può contribuire ad alleviare il carico sul Garbage Collector per alcune varietà di problemi più grandi.

normalize

Specifica il tipo di normalizzazione automatica usata:

  • "Auto": se la normalizzazione è necessaria, viene eseguita automaticamente. Questa è l'opzione predefinita.

  • "No": non viene eseguita alcuna normalizzazione.

  • "Yes": la normalizzazione viene eseguita.

  • "Warn": se la normalizzazione è necessaria, viene visualizzato un avviso ma la normalizzazione non viene eseguita.

La normalizzazione ridimensiona diversi intervalli di dati in base a una scala standard. Il ridimensionamento delle funzioni assicura che le distanze tra i punti dati siano proporzionali e consente di accelerare significativamente la convergenza di diversi metodi di ottimizzazione, tra cui la discesa di gradiente. Se la normalizzazione viene eseguita, viene usato un normalizzatore MaxMin. I valori vengono normalizzati in un intervallo [a, b], dove -1 <= a <= 0 e 0 <= b <= 1 e b - a = 1. Questo normalizzatore mantiene la sparsità eseguendo il mapping di zero a zero.

ml_transforms

Specifica un elenco di trasformazioni di MicrosoftML da eseguire sui dati prima del training o None se non devono essere eseguite trasformazioni. Per informazioni sulle trasformazioni supportate, vedere featurize_text, categorical e categorical_hash. Queste trasformazioni vengono eseguite dopo eventuali trasformazioni Python specificate. Il valore predefinito è None.

ml_transform_vars

Specifica un vettore di caratteri di nomi di variabili da usare in ml_transforms o None se non è necessario usarne alcuno. Il valore predefinito è None.

row_selection

NON SUPPORTATO. Specifica le righe (osservazioni) dal set di dati che devono essere usate dal modello con il nome di una variabile logica dal set di dati (tra virgolette) o con un'espressione logica tramite variabili nel set di dati. Ad esempio:

  • row_selection = "old" userà solo osservazioni in cui il valore della variabile old è True.

  • row_selection = (age > 20) & (age < 65) & (log(income) > 10) usa solo osservazioni in cui il valore della variabile age è compreso tra 20 e 65 e il valore di log della variabile income è maggiore di 10.

La selezione delle righe viene eseguita dopo l'elaborazione di eventuali trasformazioni dei dati. Vedere gli argomenti transforms o transform_function. Analogamente a tutte le espressioni, è possibile definire row_selection all'esterno della chiamata alla funzione usando la funzione expression.

trasformazioni

NON SUPPORTATO. Espressione con un formato che rappresenta il primo ciclo di trasformazioni delle variabili. Analogamente a tutte le espressioni, è possibile definire transforms o row_selection all'esterno della chiamata alla funzione usando la funzione expression.

transform_objects

NON SUPPORTATO. Elenco denominato che contiene oggetti a cui transforms, transform_functione row_selection possono fare riferimento.

transform_function

Funzione di trasformazione della variabile.

transform_variables

Vettore di caratteri delle variabili del set di dati di input necessario per la funzione di trasformazione.

transform_packages

NON SUPPORTATO. Vettore di caratteri che specifica altri pacchetti Python, oltre a quelli specificati in RxOptions.get_option("transform_packages"), da rendere disponibili e precaricati per l'uso nelle funzioni di trasformazione delle variabili. Ad esempio, quelli definiti in modo esplicito nelle funzioni revoscalepy tramite i relativi argomenti transforms e transform_function o quelli definiti in modo implicito tramite i relativi argomenti formula o row_selection. L'argomento transform_packages può anche essere NoneRxOptions.get_option("transform_packages"), che indica che non vengono precaricati pacchetti esterni a .

transform_environment

NON SUPPORTATO. Ambiente definito dall'utente da usare come elemento padre di tutti gli ambienti sviluppati internamente e usati per la trasformazione dei dati delle variabili. Se transform_environment = None, viene invece usato un nuovo ambiente "hash" con revoscalepy.baseenv padre.

blocks_per_read

Specifica il numero di blocchi da leggere per ogni blocco di dati letto dall'origine dati.

report_progress

Valore intero che specifica il livello di creazione di report sullo stato di elaborazione delle righe:

  • 0: non viene segnalato alcun avanzamento.

  • 1: il numero di righe elaborate viene stampato e aggiornato.

  • 2: vengono segnalate le righe elaborate e le tempistiche.

  • 3: vengono segnalate le righe elaborate e tutte le tempistiche.

verbose

Valore intero che specifica la quantità di output desiderata. Se 0, non viene stampato alcun output dettagliato durante i calcoli. Valori interi da 1 a 4 per fornire quantità crescenti di informazioni.

compute_context

Imposta il contesto in cui vengono eseguiti i calcoli, specificato con un revoscalepy.RxComputeContext valido. Sono attualmente supportati contesti di calcolo locali e revoscalepy.RxInSqlServer.

ensemble

Parametri di controllo per l'ensembling.

Restituisce

Oggetto LogisticRegression con il modello sottoposto a training.

Nota

Questo algoritmo proverà a caricare l'intero set di dati in memoria quando train_threads > 1 (multi-threading).

Vedi anche

rx_predict

Riferimenti

Wikipedia: L-BFGS

Wikipedia: regressione logistica

Training scalabile di modelli log-lineari regolarizzati L1

Esecuzione di test - Regolarizzazione L1 e L2 per Machine Learning

Esempio di classificazione binaria

'''
Binary Classification.
'''
import numpy
import pandas
from microsoftml import rx_logistic_regression, rx_predict
from revoscalepy.etl.RxDataStep import rx_data_step
from microsoftml.datasets.datasets import get_dataset

infert = get_dataset("infert")


import sklearn
if sklearn.__version__ < "0.18":
    from sklearn.cross_validation import train_test_split
else:
    from sklearn.model_selection import train_test_split

infertdf = infert.as_df()
infertdf["isCase"] = infertdf.case == 1
data_train, data_test, y_train, y_test = train_test_split(infertdf, infertdf.isCase)

model = rx_logistic_regression(
    formula=" isCase ~ age + parity + education + spontaneous + induced ",
    data=data_train)

print(model.coef_)
    
# RuntimeError: The type (RxTextData) for file is not supported.
score_ds = rx_predict(model, data=data_test,
                     extra_vars_to_write=["isCase", "Score"])
                     
# Print the first five rows
print(rx_data_step(score_ds, number_rows_read=5))

Output:

Automatically adding a MinMax normalization transform, use 'norm=Warn' or 'norm=No' to turn this behavior off.
Beginning processing data.
Rows Read: 186, Read Time: 0, Transform Time: 0
Beginning processing data.
Beginning processing data.
Rows Read: 186, Read Time: 0.001, Transform Time: 0
Beginning processing data.
Beginning processing data.
Rows Read: 186, Read Time: 0, Transform Time: 0
Beginning processing data.
LBFGS multi-threading will attempt to load dataset into memory. In case of out-of-memory issues, turn off multi-threading by setting trainThreads to 1.
Beginning optimization
num vars: 6
improvement criterion: Mean Improvement
L1 regularization selected 5 of 6 weights.
Not training a calibrator because it is not needed.
Elapsed time: 00:00:00.0646405
Elapsed time: 00:00:00.0083991
OrderedDict([('(Bias)', -1.2366217374801636), ('spontaneous', 1.9391206502914429), ('induced', 0.7497404217720032), ('parity', -0.31517016887664795), ('age', -3.162723260174971e-06)])
Beginning processing data.
Rows Read: 62, Read Time: 0, Transform Time: 0
Beginning processing data.
Elapsed time: 00:00:00.0287290
Finished writing 62 rows.
Writing completed.
Rows Read: 5, Total Rows Processed: 5, Total Chunk Time: 0.001 seconds 
  isCase PredictedLabel     Score  Probability
0  False          False -1.341681     0.207234
1   True           True  0.597440     0.645070
2  False           True  0.544912     0.632954
3  False          False -1.289152     0.215996
4  False          False -1.019339     0.265156

Esempio di classificazione MultiClass

'''
MultiClass Classification
'''
import numpy
import pandas
from microsoftml import rx_logistic_regression, rx_predict
from revoscalepy.etl.RxDataStep import rx_data_step
from microsoftml.datasets.datasets import get_dataset

iris = get_dataset("iris")

import sklearn
if sklearn.__version__ < "0.18":
    from sklearn.cross_validation import train_test_split
else:
    from sklearn.model_selection import train_test_split

irisdf = iris.as_df()
irisdf["Species"] = irisdf["Species"].astype("category")
data_train, data_test, y_train, y_test = train_test_split(irisdf, irisdf.Species)

model = rx_logistic_regression(
    formula="  Species ~ Sepal_Length + Sepal_Width + Petal_Length + Petal_Width ",
    method="multiClass",
    data=data_train)

print(model.coef_)
    
# RuntimeError: The type (RxTextData) for file is not supported.
score_ds = rx_predict(model, data=data_test,
                     extra_vars_to_write=["Species", "Score"])
                     
# Print the first five rows
print(rx_data_step(score_ds, number_rows_read=5))

Output:

Automatically adding a MinMax normalization transform, use 'norm=Warn' or 'norm=No' to turn this behavior off.
Beginning processing data.
Rows Read: 112, Read Time: 0, Transform Time: 0
Beginning processing data.
Beginning processing data.
Rows Read: 112, Read Time: 0, Transform Time: 0
Beginning processing data.
Beginning processing data.
Rows Read: 112, Read Time: 0, Transform Time: 0
Beginning processing data.
LBFGS multi-threading will attempt to load dataset into memory. In case of out-of-memory issues, turn off multi-threading by setting trainThreads to 1.
Beginning optimization
num vars: 15
improvement criterion: Mean Improvement
L1 regularization selected 9 of 15 weights.
Not training a calibrator because it is not needed.
Elapsed time: 00:00:00.0493224
Elapsed time: 00:00:00.0080558
OrderedDict([('setosa+(Bias)', 2.074636697769165), ('versicolor+(Bias)', 0.4899507164955139), ('virginica+(Bias)', -2.564580202102661), ('setosa+Petal_Width', -2.8389241695404053), ('setosa+Petal_Length', -2.4824044704437256), ('setosa+Sepal_Width', 0.274869441986084), ('versicolor+Sepal_Width', -0.2645561397075653), ('virginica+Petal_Width', 2.6924400329589844), ('virginica+Petal_Length', 1.5976412296295166)])
Beginning processing data.
Rows Read: 38, Read Time: 0, Transform Time: 0
Beginning processing data.
Elapsed time: 00:00:00.0331861
Finished writing 38 rows.
Writing completed.
Rows Read: 5, Total Rows Processed: 5, Total Chunk Time: 0.001 seconds 
      Species   Score.0   Score.1   Score.2
0   virginica  0.044230  0.364927  0.590843
1      setosa  0.767412  0.210586  0.022002
2      setosa  0.756523  0.221933  0.021543
3      setosa  0.767652  0.211191  0.021157
4  versicolor  0.116369  0.498615  0.385016