20.1 Modelos de regresión

Nos centraremos en los modelos de regresión:

\[Y=f(X_{1},\cdots,X_{p})+\varepsilon\] donde:

  • \(Y\equiv\) variable respuesta (o dependiente).

  • \(\left( X_{1},\cdots,X_{p}\right) \equiv\) variables explicativas (independientes, o covariables).

  • \(\varepsilon\equiv\) error aleatorio.

20.1.1 Herramientas disponibles en R

R dispone de múltiples herramientas para trabajar con modelos de este tipo. Algunas de las funciones y paquetes disponibles se muestran a continuación:

  • Modelos paramétricos:

    • Modelos lineales:

      • Regresión lineal: lm() (aov(), lme(), biglm, …).

      • Regresión lineal robusta: MASS::rlm().

      • Métodos de regularización (Ridge regression, Lasso): glmnet, …

    • Modelos lineales generalizados: glm() (bigglm, …).

    • Modelos paramétricos no lineales: nls() (nlme, …).

  • Modelos no paramétricos:

    • Regresión local (métodos de suavizado): loess(), KernSmooth, sm, …

    • Modelos aditivos generalizados (GAM): gam, mgcv, …

    • Arboles de decisión (Random Forest, Boosting): rpart, randomForest, xgboost, …

    • Redes neuronales, …

Desde el punto de vista de la programación, con todos estos modelos se trabaja de una forma muy similar en R.