Tutorial: como analisar dados com glm

Artigo
03/01/2024

Saiba como executar a regressão linear e logística usando um modelo linear generalizado (GLM) em Azure Databricks. glm ajusta-se a um Modelo Linear Generalizado, semelhante ao R’s glm().

Sintaxe: glm(formula, data, family...)

Parâmetros:

formula: Descrição simbólica do modelo a ser ajustado, por exemplo: ResponseVariable ~ Predictor1 + Predictor2. Operadores com suporte: ~, +, - e .
data: qualquer SparkDataFrame
family: cadeia de caracteres, "gaussian" para regressão linear ou "binomial" para regressão logística
lambda: parâmetro numérico, regularização
alpha: parâmetro numérico, mixagem elástico-líquido

Saída: MLlib PipelineModel

Este tutorial mostra como executar a regressão linear e logística no conjunto de linhas de ouros.

Carregar dados de diamantes e dividir em conjuntos de treinamento e teste

require(SparkR)

# Read diamonds.csv dataset as SparkDataFrame
diamonds <- read.df("/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv",
                  source = "com.databricks.spark.csv", header="true", inferSchema = "true")
diamonds <- withColumnRenamed(diamonds, "", "rowID")

# Split data into Training set and Test set
trainingData <- sample(diamonds, FALSE, 0.7)
testData <- except(diamonds, trainingData)

# Exclude rowIDs
trainingData <- trainingData[, -1]
testData <- testData[, -1]

print(count(diamonds))
print(count(trainingData))
print(count(testData))

head(trainingData)

Treinar um modelo de regressão linear usando `glm()`.

Esta seção mostra como prever o preço de um losango de seus recursos treinando um modelo de regressão linear usando os dados de treinamento.

Há uma mistura de recursos categóricos (corte - Ideal, Premium, Muito bom...) e recursos contínuos (profundidade, carat). O SparkR codifica automaticamente esses recursos para que você não precise codificar esses recursos manualmente.

# Family = "gaussian" to train a linear regression model
lrModel <- glm(price ~ ., data = trainingData, family = "gaussian")

# Print a summary of the trained model
summary(lrModel)

Use predict() nos dados de teste para ver quão bem o modelo funciona em novos dados.

Sintaxe: predict(model, newData)

Parâmetros:

model: Modelo de MLlib
newData: SparkDataFrame, normalmente seu conjunto de testes

Saída: SparkDataFrame

# Generate predictions using the trained model
predictions <- predict(lrModel, newData = testData)

# View predictions against mpg column
display(select(predictions, "price", "prediction"))

Avalie o modelo.

errors <- select(predictions, predictions$price, predictions$prediction, alias(predictions$price - predictions$prediction, "error"))
display(errors)

# Calculate RMSE
head(select(errors, alias(sqrt(sum(errors$error^2 , na.rm = TRUE) / nrow(errors)), "RMSE")))

Treinar um modelo de regressão logística usando `glm()`

Esta seção mostra como criar uma regressão logística no mesmo conjunto de mesmos para prever um corte de losango com base em alguns de seus recursos.

A regressão logística no MLlib dá suporte apenas à classificação binária. Para testar o algoritmo neste exemplo, crie um subconjunto dos dados para trabalhar com dois rótulos.

# Subset data to include rows where diamond cut = "Premium" or diamond cut = "Very Good"
trainingDataSub <- subset(trainingData, trainingData$cut %in% c("Premium", "Very Good"))
testDataSub <- subset(testData, testData$cut %in% c("Premium", "Very Good"))

# Family = "binomial" to train a logistic regression model
logrModel <- glm(cut ~ price + color + clarity + depth, data = trainingDataSub, family = "binomial")

# Print summary of the trained model
summary(logrModel)

# Generate predictions using the trained model
predictionsLogR <- predict(logrModel, newData = testDataSub)

# View predictions against label column
display(select(predictionsLogR, "label", "prediction"))

Avalie o modelo.

errorsLogR <- select(predictionsLogR, predictionsLogR$label, predictionsLogR$prediction, alias(abs(predictionsLogR$label - predictionsLogR$prediction), "error"))
display(errorsLogR)

Compartilhar via

Tutorial: como analisar dados com glm

Carregar dados de diamantes e dividir em conjuntos de treinamento e teste

Treinar um modelo de regressão linear usando `glm()`.

Treinar um modelo de regressão logística usando `glm()`

Comentários

Comentários

Recursos adicionais

Compartilhar via

Tutorial: como analisar dados com glm

Carregar dados de diamantes e dividir em conjuntos de treinamento e teste

Treinar um modelo de regressão linear usando glm().

Treinar um modelo de regressão logística usando glm()

Comentários

Comentários

Recursos adicionais

Treinar um modelo de regressão linear usando `glm()`.

Treinar um modelo de regressão logística usando `glm()`