Modelos de regresión múltiple jerárquica

Modelos de regresión múltiple jerárquica

Modelos de regresión múltiple jerárquica

La regresión múltiple jerárquica es una técnica estadística que permite evaluar cómo diferentes bloques de variables explicativas (predictoras) contribuyen al modelo de regresión en distintas etapas. Se utiliza cuando se quiere entender el efecto incremental de grupos de variables sobre una variable dependiente, controlando primero por otras.

 

Supuestos de partida

✅ Supuestos fundamentales de la regresión múltiple:

SupuestoDescripciónCómo comprobarlo
1LinealidadLa relación entre las variables independientes y la dependiente debe ser linealDiagramas de dispersión, gráficos de residuos
2Independencia de los erroresLos residuos (errores) deben ser independientes entre síPrueba de Durbin-Watson entre 1.5 y 2.5
3HomoscedasticidadLa varianza de los errores debe ser constante en todos los niveles de las variables independientesGráfico de residuos vs predichos, test de Breusch-Pagan
4Normalidad de los erroresLos residuos deben seguir una distribución normal (no las variables, sino los errores)Histograma de residuos, QQ plot, prueba de Shapiro-Wilk
5No multicolinealidadLas variables independientes no deben estar excesivamente correlacionadas entre síVIF (Variance Inflation Factor) próximo a 1, matriz de correlaciones
6Ausencia de valores atípicos influyentesNo debe haber casos que influyan desproporcionadamente en el modeloLeverage, distancia de Cook, gráfico de influencia

 

La multicolinealidad se refiere a la alta correlación entre las variables independientes en un modelo de regresión múltiple, las variables explicativas de alguna manera aportan información redundante. La tabla de estadísticos de colinealidad proporciona indicadores para evaluar este problema: el VIF (Factor de Inflación de la Varianza) y la Tolerancia (1/VIF). Generalmente, un VIF > 5 o 10 (o una Tolerancia < 0.2) se considera indicativo de un problema de multicolinealidad importante.

 

Tabla de coeficientes de regresión en múltiple jerárquica

Dependiendo del investigador/a, se puede reflejar un modelo final con todas las variables o solo con las estadísticamente significativas. Quizá lo más correcto es que el modelo final tenga tan solo las significativas, que son buenas predictoras del ajuste de regresión múltiple jerárquica.

El R² ajustado (R cuadrado ajustado) es una medida estadística que corrige el R² (coeficiente de determinación) teniendo en cuenta el número de predictores en un modelo de regresión. Es especialmente útil en regresión múltiple y jerárquica porque penaliza la inclusión de variables irrelevantes. Refleja la proporción de variabilidad de la variable dependiente explicada por el modelo.

 

Coeficientes Estandarizados

Para comparar la magnitud de la influencia de las variables independientes (factores) en la variable de respuesta dentro del modelo de regresión, se utilizan los coeficientes estandarizados (‘Standard Estimate’). El coeficiente estandarizado indica cuántas desviaciones estándar cambia la variable dependiente por cada desviación típica que cambia la variable independiente, permaneciendo el resto de las variables como constantes. La variable con el mayor valor absoluto en el coeficiente estandarizado es la que tiene mayor peso en la regresión.

¿Cómo interpretar los coeficientes estandarizados para identificar la variable con mayor influencia en un modelo de regresión?.

🧪 Ejemplo: Predicción del rendimiento académico de estudiantes

Supongamos que estás analizando qué factores explican el rendimiento académico (medido por la nota final del curso, de 0 a 10) de un grupo de estudiantes. Planteas el siguiente modelo de regresión:

📌 Variable dependiente (VD):

Nota final del estudiante.

📌 Variables independientes (VI):

Horas de estudio por semana.

Asistencia a clase (en %).

Nivel de estrés (medido en una escala de 1 a 10).

✅ Interpretación: ¿Qué variable tiene más influencia?

Para determinar cuál variable tiene mayor influencia sobre la nota final, comparamos el valor absoluto de los coeficientes estandarizados:

|0.55| (horas de estudio)

|0.30| (asistencia)

|0.65| (estrés)

🟢 Conclusión:

La variable con mayor influencia sobre la nota final es el nivel de estrés, ya que tiene el mayor valor absoluto del coeficiente estandarizado (-0.65).

Esto indica que, manteniendo las demás variables constantes, un aumento de 1 desviación estándar en el nivel de estrés se asocia con una disminución de 0.65 desviaciones estándar en la nota final.

💡 ¿Por qué usamos coeficientes estandarizados?

Porque permiten comparar el peso relativo de diferentes variables, incluso si están en distintas escalas (por ejemplo, horas, %, y escala de 1 a 10). Así sabes cuál variable «pesa más» en la predicción, sin importar las unidades.