Partage via


summary.mlModel : résumé d’un modèle Machine Learning Microsoft R.

Résumé d’un modèle Machine Learning Microsoft R.

Utilisation

 ## S3 method for class `mlModel':
summary  (object, top = 20, ...)

Arguments

object

Objet de modèle retourné à partir d’une analyse MicrosoftML.

top

Spécifie le nombre de coefficients supérieurs à afficher dans le résumé des modèles linéaires, comme rxLogisticRegression et rxFastLinear. Le biais apparaît en premier, suivi d’autres pondérations, triées en fonction de leurs valeurs absolues dans l’ordre décroissant. Si NULL, tous les coefficients non nuls sont affichés. Sinon, seuls les top premiers coefficients sont affichés.

...

Arguments supplémentaires à passer à la méthode de résumé.

Détails

Fournit des informations de résumé sur l’appel de fonction d’origine, le
jeu de données utilisé pour l’apprentissage du modèle, et les statistiques pour les coefficients dans le modèle.

Valeur

La méthode summary des objets d’analyse MicrosoftML retourne une liste qui comprend l’appel de fonction d’origine et les paramètres sous-jacents utilisés. La méthode coef retourne un vecteur nommé de poids, en traitant les informations de l’objet de modèle.

Pour rxLogisticRegression, les statistiques suivantes peuvent également être présentes dans le résumé lorsque showTrainingStats a la valeur TRUE.

training.size

Taille, en nombre de lignes, du jeu de données utilisé pour l’apprentissage du modèle.

deviance

La déviance du modèle est donnée par -2 * ln(L), où L est la probabilité d’obtenir les observations avec toutes les caractéristiques incorporées dans le modèle.

null.deviance

La déviance nulle est donnée par -2 * ln(L0), où L0 est la probabilité d’obtenir les observations sans effet à partir des caractéristiques. Le modèle null inclut le biais s’il y en a un dans le modèle.

aic

L’AIC (Akaike Information Criteria) est défini comme 2 * k ``+ deviance, où k est le nombre de coefficients du modèle. Le biais compte parmi les coefficients. L’AIC est une mesure de la qualité relative du modèle. Il s’agit d’un compromis entre l’adéquation du modèle (mesuré par le niveau de correspondance) et la complexité du modèle (mesurée par le nombre de coefficients).

coefficients.stats

Il s’agit d’une trame de données contenant les statistiques de chaque coefficient dans le modèle. Pour chaque coefficient, les statistiques suivantes sont affichées. Le biais apparaît dans la première ligne et les coefficients restants dans l’ordre croissant de valeur p.

  • Estimate : la valeur de coefficient estimée du modèle.
  • STD Error : la racine carrée de la variance du grand échantillon de l’estimation du coefficient.
  • z-Score : nous pouvons effectuer des tests par rapport à l’hypothèse null, qui indique que le coefficient doit être égal à zéro, pour ce qui est de l’importance du coefficient en calculant le rapport entre son estimation et son erreur standard. Dans le cadre de l’hypothèse null, si aucune régularisation n’est appliquée, l’estimation du coefficient suit une distribution normale avec une moyenne de 0 et un écart type égal à l’erreur standard calculée ci-dessus. Le score z génère le rapport entre l’estimation d’un coefficient et l’erreur standard du coefficient.
  • Pr(>|z|) Il s’agit de la valeur p correspondante pour le test recto-verso du score z. En fonction du niveau de précision, un indicateur de précision est ajouté à la valeur p. Si F(x) est le CDF de la distribution normale standard N(0, 1), alors P(>|z|) = 2 - ``2 * F(|z|).

Auteur(s)

Microsoft Corporation Microsoft Technical Support

Voir aussi

rxFastTrees, rxFastForest, rxFastLinear, rxOneClassSvm, rxNeuralNet, rxLogisticRegression.

Exemples


 # Estimate a logistic regression model
 logitModel <- rxLogisticRegression(isCase ~ age + parity + education + spontaneous + induced,
                   transforms = list(isCase = case == 1),
                   data = infert)
 # Print a summary of the model
 summary(logitModel)

 # Score to a data frame
 scoreDF <- rxPredict(logitModel, data = infert, 
     extraVarsToWrite = "isCase")

 # Compute and plot the Radio Operator Curve and AUC
 roc1 <- rxRoc(actualVarName = "isCase", predVarNames = "Probability", data = scoreDF) 
 plot(roc1)
 rxAuc(roc1)

 #######################################################################################
 # Multi-class logistic regression  
 testObs <- rnorm(nrow(iris)) > 0
 testIris <- iris[testObs,]
 trainIris <- iris[!testObs,]
 multiLogit <- rxLogisticRegression(
     formula = Species~Sepal.Length + Sepal.Width + Petal.Length + Petal.Width,
     type = "multiClass", data = trainIris)

 # Score the model
 scoreMultiDF <- rxPredict(multiLogit, data = testIris, 
     extraVarsToWrite = "Species")    
 # Print the first rows of the data frame with scores
 head(scoreMultiDF)
 # Look at confusion matrix
 table(scoreMultiDF$Species, scoreMultiDF$PredictedLabel)

 # Look at the observations with incorrect predictions
 badPrediction = scoreMultiDF$Species != scoreMultiDF$PredictedLabel
 scoreMultiDF[badPrediction,]