summary.mlModel: Zusammenfassung eines Microsoft R Machine Learning-Modells.
Zusammenfassung eines Microsoft R Machine Learning-Modells.
Verwendung
## S3 method for class `mlModel':
summary (object, top = 20, ...)
Argumente
object
Ein Modellobjekt, das von einer Microsoft ML-Analyse zurückgegeben wird.
top
Gibt die Anzahl der obersten Koeffizienten an, die in der Zusammenfassung für lineare Modelle wie rxLogisticRegression und rxFastLinear angezeigt werden sollen. Der Trend wird zuerst angezeigt, gefolgt von anderen Gewichtungen, sortiert nach ihren absoluten Werten in absteigender Reihenfolge. Bei Festlegung auf NULL
werden alle Koeffizienten ungleich 0 angezeigt. Andernfalls werden nur die ersten top
Koeffizienten angezeigt.
...
Zusätzliche Argumente, die an die Zusammenfassungsmethode übergeben werden sollen.
Details
Stellt zusammenfassende Informationen zum ursprünglichen Funktionsaufruf,
dem Dataset, das zum Trainieren des Modells verwendet wird, und Statistiken für Koeffizienten im Modell bereit.
Wert
Die summary
-Methode der MicrosoftML-Analyseobjekte gibt eine Liste zurück, die den ursprünglichen Funktionsaufruf und die verwendeten zugrunde liegenden Parameter enthält. Die coef
-Methode gibt einen benannten Vektor von Gewichtungen zurück, der Informationen aus dem Modellobjekt verarbeitet.
Für rxLogisticRegression können die folgenden Statistiken auch in der Zusammenfassung vorhanden sein, wenn showTrainingStats
auf TRUE
festgelegt ist.
training.size
Die Größe des zum Trainieren des Modells verwendeten Datasets in der Anzahl der Zeilen.
deviance
Die Modellabweichung wird durch -2 * ln(L)
angegeben, wobei L
die Wahrscheinlichkeit angibt, die Beobachtungen mit allen in das Modell integrierten Features zu erhalten.
null.deviance
Die NULL-Abweichung wird durch -2 * ln(L0)
angegeben, wobei L0
die Wahrscheinlichkeit angibt, die Beobachtungen ohne Einfluss der Features zu erhalten. Das NULL-Modell enthält den Trend, sofern ein Trend im Modell zu erkennen ist.
aic
Das AIC (Akaike Information Criterion) ist als 2 * k ``+ deviance
definiert, wobei k
die Anzahl der Koeffizienten des Modells angibt. Der Trend zählt als einer der Koeffizienten. Das AIC ist ein Maß für die relative Qualität des Modells. Dabei geht es um den Kompromiss zwischen der Eignung des Modells (gemessen an der Abweichung) und der Komplexität des Modells (gemessen an der Anzahl der Koeffizienten).
coefficients.stats
Dies ist ein Datenrahmen, der die Statistiken für jeden Koeffizienten im Modell enthält. Für jeden Koeffizienten werden die folgenden Statistiken angezeigt. Der Trend wird in der ersten Zeile und die verbleibenden Koeffizienten werden in aufsteigender Reihenfolge des p-Werts angezeigt.
- Schätzung: Der geschätzte Koeffizientenwert des Modells.
- Standardfehler: Dies ist die Quadratwurzel der Varianz der großen Stichprobe der Schätzung des Koeffizienten.
- Z-Bewertung: Wir können anhand der Nullhypothese testen, der zufolge der Koeffizient 0 (null) sein sollte, die Bedeutung des Koeffizienten nach Berechnung des Verhältnisses seiner Schätzung und seines Standardfehlers betreffend. Wenn unter der Nullhypothese keine Abgrenzung angewendet wird, folgt die Schätzung des betreffenden Koeffizienten einer Normalverteilung mit dem Mittelwert 0 und einer Standardabweichung, die dem oben berechneten Standardfehler entspricht. Die Z-Bewertung gibt das Verhältnis zwischen der Schätzung eines Koeffizienten und dem Standardfehler des Koeffizienten aus.
- Pr(>|z|): Dies ist der entsprechende p-Wert für den zweiseitigen Test der Z-Bewertung. Basierend auf der Signifikanzstufe wird dem p-Wert ein Signifikanzindikator angefügt. Wenn
F(x)
das CDF der StandardnormalverteilungN(0, 1)
ist, dann istP(>|z|) = 2 - ``2 * F(|z|)
.
Autor(en)
Microsoft Corporation Microsoft Technical Support
Weitere Informationen
rxFastTrees, rxFastForest, rxFastLinear, rxOneClassSvm, rxNeuralNet, rxLogisticRegression.
Beispiele
# Estimate a logistic regression model
logitModel <- rxLogisticRegression(isCase ~ age + parity + education + spontaneous + induced,
transforms = list(isCase = case == 1),
data = infert)
# Print a summary of the model
summary(logitModel)
# Score to a data frame
scoreDF <- rxPredict(logitModel, data = infert,
extraVarsToWrite = "isCase")
# Compute and plot the Radio Operator Curve and AUC
roc1 <- rxRoc(actualVarName = "isCase", predVarNames = "Probability", data = scoreDF)
plot(roc1)
rxAuc(roc1)
#######################################################################################
# Multi-class logistic regression
testObs <- rnorm(nrow(iris)) > 0
testIris <- iris[testObs,]
trainIris <- iris[!testObs,]
multiLogit <- rxLogisticRegression(
formula = Species~Sepal.Length + Sepal.Width + Petal.Length + Petal.Width,
type = "multiClass", data = trainIris)
# Score the model
scoreMultiDF <- rxPredict(multiLogit, data = testIris,
extraVarsToWrite = "Species")
# Print the first rows of the data frame with scores
head(scoreMultiDF)
# Look at confusion matrix
table(scoreMultiDF$Species, scoreMultiDF$PredictedLabel)
# Look at the observations with incorrect predictions
badPrediction = scoreMultiDF$Species != scoreMultiDF$PredictedLabel
scoreMultiDF[badPrediction,]