Поделиться через


summary.mlModel: сводка по модели Машинного обучения Microsoft R.

Сводка по модели машинного обучения Microsoft R.

Использование

 ## S3 method for class `mlModel':
summary  (object, top = 20, ...)

Аргументы

object

Объект модели, возвращаемый из анализа MicrosoftML.

top

Указывает число верхних коэффициентов, отображаемых в сводке для линейных моделей, таких как rxLogisticRegression и rxFastLinear. Сначала выполняется смещение, за которым следуют другие весовые коэффициенты, отсортированные по их абсолютным величинам в убывающем порядке. Если задано значение NULL, отображаются все ненулевые коэффициенты. В противном случае отображаются только первые коэффициенты top.

...

Дополнительные аргументы передаются в метод сводки.

Подробнее

Предоставляет сводку о вызове исходной функции —
набор данных, использованный для обучения модели, и статистические показатели для коэффициентов в модели.

Значение

Метод summary объектов анализа MicrosoftML возвращает список, включающий исходный вызов функции и используемые базовые параметры. Метод coef возвращает именованный вектор весовых коэффициентов, обрабатывая данные из объекта модели.

Для модели rxLogisticRegression в сводке также может применяться следующая статистика, если для параметра showTrainingStats задано значение TRUE.

training.size

Размер набора данных, используемого для обучения модели, относительно числа строк.

deviance

Отклонение модели, заданное -2 * ln(L), где L — это вероятность получения наблюдений со всеми функциями, включенными в модель.

null.deviance

Нулевое отклонение, заданное -2 * ln(L0), где L0 — это вероятность получения наблюдений без эффекта от функций. Нулевая модель включает смещение, если оно есть в модели.

aic

AIC (информационный критерий Akaike) определяется как 2 * k ``+ deviance, где k — число коэффициентов модели. Смещение считается одним из коэффициентов. Критерий AIC — это мера относительного качества модели. Он влияет на компромиссное соотношение между степенью соответствия модели (измеряемой отклонением) и ее сложностью (измеряемой количеством коэффициентов).

coefficients.stats

Это кадр данных, содержащий статистику для каждого коэффициента в модели. Для каждого коэффициента отображаются следующие статистические данные. Смещение отображается в первой строке, а оставшиеся коэффициенты — в порядке возрастания p-значения.

  • Estimate — рассчитанное значение коэффициента модели.
  • StdError — это квадратный корень из дисперсии большой выборки оценки коэффициента.
  • Z-оценка может проверить нулевую гипотезу, в которой говорится, что коэффициент должен быть равен нулю в отношении значимости коэффициента путем вычисления соотношения его оценки и его стандартной ошибки. При нулевой гипотезе, если не применяется регуляризация, оценка интересующего коэффициента соответствует нормальному распределению со средним значением 0 и стандартным отклонением, равным стандартной ошибке, вычисленной выше. Z-оценка выводит отношение между оценкой коэффициента и стандартной ошибкой коэффициента.
  • Pr(>|z|) Это соответствующее p-значение для двустороннего теста z-оценки. В зависимости от уровня значимости к p-значению добавляется индикатор значимости. Если F(x) — это CDF стандартного нормального распределения N(0, 1), тогда P(>|z|) = 2 - ``2 * F(|z|).

Авторы

Корпорация Майкрософт Microsoft Technical Support

См. также

rxFastTrees, rxFastForest, rxFastLinear, rxOneClassSvm, rxNeuralNet, rxLogisticRegression.

Примеры


 # Estimate a logistic regression model
 logitModel <- rxLogisticRegression(isCase ~ age + parity + education + spontaneous + induced,
                   transforms = list(isCase = case == 1),
                   data = infert)
 # Print a summary of the model
 summary(logitModel)

 # Score to a data frame
 scoreDF <- rxPredict(logitModel, data = infert, 
     extraVarsToWrite = "isCase")

 # Compute and plot the Radio Operator Curve and AUC
 roc1 <- rxRoc(actualVarName = "isCase", predVarNames = "Probability", data = scoreDF) 
 plot(roc1)
 rxAuc(roc1)

 #######################################################################################
 # Multi-class logistic regression  
 testObs <- rnorm(nrow(iris)) > 0
 testIris <- iris[testObs,]
 trainIris <- iris[!testObs,]
 multiLogit <- rxLogisticRegression(
     formula = Species~Sepal.Length + Sepal.Width + Petal.Length + Petal.Width,
     type = "multiClass", data = trainIris)

 # Score the model
 scoreMultiDF <- rxPredict(multiLogit, data = testIris, 
     extraVarsToWrite = "Species")    
 # Print the first rows of the data frame with scores
 head(scoreMultiDF)
 # Look at confusion matrix
 table(scoreMultiDF$Species, scoreMultiDF$PredictedLabel)

 # Look at the observations with incorrect predictions
 badPrediction = scoreMultiDF$Species != scoreMultiDF$PredictedLabel
 scoreMultiDF[badPrediction,]