Análisis de regresión paso a paso (stepwise).

Análisis de regresión paso a paso (stepwise).

Modelo teórico 

El empleo del análisis de regresión jerárquico es muy útil cuando se parte de un modelo teórico que nos indica el posible orden causal de influencia de las variables y por tanto el orden de entrada de las mismas a la ecuación de regresión. Sin embargo, su utilidad se ve limitada cuando las variables se encuentran correlacionadas o cuando se emplean varias variables dentro de un mismo bloque, cada una de las cuales tiene efectos distintos, facilitadores y/o supresores, sobre la variable criterio. Para obviar estos problemas podemos utilizar distintos métodos, como el método .paso a paso. (stepwise) de selección de variables, dentro de un modelo predictivo. O el método de estructuras de covarianza elaborado dentro de un modelo causal, que está cercano al análisis jerárquico, pero supera las limitaciones de éste.

 

Método 

Análisis de regresión paso a paso (stepwise).

El método de regresión paso a paso, tiene en cuenta la correlación entre las variables y es útil para seleccionar, a partir de un conjunto amplio, aquellas variables que hacen una contribución relativamente independiente a la predicción del criterio.

En la tabla 13, se presentan los resultados del método paso a paso, utilizado para la predicción del rendimiento final que obtienen los participantes.

La variable que hace una mayor contribución a la explicación de la varianza del criterio es la similitud conceptual (β= .28, p=.0014). También contribuyen a explicar de forma significativa la adquisición de conocimientos, la percepción que tienen los participantes del proceso de enseñanza-aprendizaje (β= .22, p=. 0186); la variable motivacional de autoexigencia laboral (β= .25, p=. 0046); y la inteligencia práctica (β= .21, p=. 0244).

Así pues, las variables que adquieren mayor relevancia predictiva están relacionadas con la organización del conocimiento, la percepción de un ambiente de aprendizaje variado y rico, la autoexigencia en el trabajo/estudio y, en menor, grado la inteligencia práctica.

 

El análisis de regresión paso a paso (stepwise regression en inglés) es un enfoque que se utiliza para seleccionar de manera automática las variables independientes más relevantes que deben incluirse en un modelo de regresión. Este método ayuda a simplificar el modelo al eliminar las variables que tienen un impacto insignificante en la variable dependiente. Hay dos tipos principales de análisis de regresión paso a paso: el paso hacia adelante (forward stepwise regression) y el paso hacia atrás (backward stepwise regression). Aquí se describen ambos enfoques:

  1. Paso hacia Adelante (Forward Stepwise Regression):
    • Comienza con un modelo vacío que no contiene ninguna variable independiente.
    • Luego, se ajustan modelos adicionales, uno por uno, añadiendo la variable independiente que más mejora la calidad del modelo. Esto se mide generalmente mediante estadísticas como el valor F o el coeficiente de determinación ajustado (R^2 ajustado).
    • El proceso continúa hasta que no haya más variables que puedan agregar mejoras significativas al modelo.

    Pasos generales del paso hacia adelante: a. Ajusta un modelo sin variables independientes (modelo constante). b. Para cada variable independiente restante, ajusta un modelo que incluya esa variable junto con las que ya están en el modelo y evalúa su rendimiento. c. Agrega la variable que proporciona la mejora más significativa al modelo. d. Repite el proceso hasta que no haya más variables que mejoren el modelo.

  2. Paso hacia Atrás (Backward Stepwise Regression):
    • Comienza con un modelo que incluye todas las variables independientes disponibles.
    • Luego, se ajustan modelos adicionales, uno por uno, eliminando la variable independiente que tiene el menor impacto en el modelo, generalmente utilizando estadísticas como el valor F o el R^2 ajustado.
    • El proceso continúa hasta que eliminar una variable no cause una mejora significativa en el modelo.

    Pasos generales del paso hacia atrás: a. Ajusta un modelo que incluye todas las variables independientes disponibles. b. Para cada variable independiente en el modelo, ajusta un modelo que excluya esa variable y evalúa su rendimiento. c. Elimina la variable que tiene el menor impacto en el modelo (generalmente la que resulta en la menor disminución en el valor F o el R^2 ajustado). d. Repite el proceso hasta que eliminar una variable no cause una mejora significativa en el modelo.

Es importante tener en cuenta que el análisis de regresión paso a paso es una técnica automática y puede no ser la mejor opción en todos los casos. La selección de variables puede depender de la naturaleza del problema y del conocimiento experto en el campo. Además, es esencial realizar una validación cruzada u otras pruebas para evaluar la calidad y la generalización del modelo resultante.

 

Editorial Luis Bonilla. Expertos en enseñanza, formación a distancia, tutores cualificados y con variedad de cursos online.

 

 

📌 1. Fases del Análisis de Regresión Paso a Paso

1️⃣ Preparación de los Datos

Antes de realizar un análisis de regresión, es importante realizar una limpieza de datos adecuada. Esto incluye:

🔹 Identificación de variables dependientes e independientes.
🔹 Comprobación de valores faltantes.
🔹 Transformación de variables si es necesario (escalado, logaritmos, etc.).
🔹 Verificación de multicolinealidad entre las variables independientes.

2️⃣ Creación de un Modelo Inicial

Para iniciar el proceso, primero se debe definir un modelo de regresión que puede ser:

  • Regresión lineal múltiple (si hay más de una variable independiente) o
  • Regresión simple (si solo hay una variable predictora).

El objetivo es encontrar la relación entre la variable dependiente y las variables independientes.


📌 2. Métodos de Selección de Variables en el Análisis Paso a Paso

Existen tres enfoques principales en la técnica paso a paso:

A. Selección hacia adelante (Forward Selection)

Este método comienza con ninguna variable en el modelo. A medida que se avanzan los pasos, se van añadiendo variables, seleccionando aquellas que mejoran el ajuste del modelo según un criterio estadístico (por ejemplo, el valor de p o el AIC).

  • Paso 1: Se inicia con un modelo vacío (sin variables predictoras).
  • Paso 2: Se evalúa cada variable independiente disponible. Se añade la variable con el valor p más bajo (menor significancia).
  • Paso 3: Este proceso se repite hasta que ninguna variable adicional mejora el modelo según el criterio preestablecido (como el valor de p o el AIC).

B. Eliminación hacia atrás (Backward Elimination)

Este enfoque comienza con todas las variables en el modelo y elimina aquellas variables que no contribuyen significativamente a la explicación de la variable dependiente.

  • Paso 1: Se inicia con un modelo completo que incluye todas las variables independientes.
  • Paso 2: Se calcula el valor p de todas las variables. Se elimina la variable con el valor p más alto (menos significativa).
  • Paso 3: Este proceso se repite hasta que todas las variables restantes tengan un valor p significativo (por debajo de un umbral preestablecido, como 0.05).

C. Selección paso a paso (Stepwise Selection)

Este enfoque es una combinación de la selección hacia adelante y la eliminación hacia atrás. En cada paso, el modelo puede añadir o eliminar variables dependiendo de los resultados de las pruebas estadísticas.

  • Paso 1: Inicia con un modelo vacío o con variables iniciales seleccionadas.
  • Paso 2: En cada iteración, se evalúa la posibilidad de añadir nuevas variables (como en la selección hacia adelante) o eliminar las existentes (como en la eliminación hacia atrás).
  • Paso 3: El proceso continúa hasta que ya no se puede añadir ni eliminar ninguna variable que mejore el modelo.

📌 3. Criterios Estadísticos Comunes en el Análisis Paso a Paso

Los criterios que se utilizan para decidir qué variables añadir o eliminar son fundamentales en el proceso de selección. Algunos de los más comunes son:

1. Valor p (p-value):

El valor p de cada variable se utiliza para evaluar su significancia en el modelo. Generalmente, se establece un umbral (por ejemplo, 0.05). Si el valor p de una variable es mayor que el umbral, se considera que esa variable no es significativa y se puede eliminar (en el caso de la eliminación hacia atrás) o no se incluirá (en la selección hacia adelante).

2. AIC (Criterio de Información de Akaike):

El AIC es un criterio utilizado para comparar diferentes modelos. Penaliza la complejidad del modelo (más variables) y recompensa un buen ajuste. El modelo con el AIC más bajo es generalmente el mejor.

3. R² ajustado (R-squared ajustado):

El R² ajustado es una versión del que penaliza la inclusión de variables que no mejoran significativamente el modelo. Este valor ajustado es útil cuando se comparan modelos con diferente número de variables.


📌 4. Consideraciones Importantes al Utilizar el Análisis Paso a Paso

🔹 Multicolinealidad: Asegúrate de que las variables independientes no estén altamente correlacionadas entre sí, ya que esto puede distorsionar los resultados.
🔹 Sobreajuste (Overfitting): Aunque añadir más variables puede mejorar el ajuste del modelo, puede conducir a un sobreajuste si no se maneja adecuadamente.
🔹 Interpretación de Resultados: Aunque el análisis paso a paso puede ayudarte a seleccionar las variables más relevantes, siempre es importante interpretar los resultados en el contexto y con el conocimiento del dominio.
🔹 Validación cruzada: Utiliza la validación cruzada o particiona los datos para verificar la robustez del modelo y evitar el sobreajuste.


📌 5. Ejemplo de Implementación en Python (Usando statsmodels y sklearn)

Aquí te dejo un ejemplo básico utilizando Python para realizar un análisis paso a paso:

python
import statsmodels.api as sm
import pandas as pd
from sklearn.model_selection import train_test_split

# Cargar datos (ejemplo)
data = pd.read_csv("tus_datos.csv")

# Definir las variables dependientes e independientes
X = data.drop('Y', axis=1) # Y es la variable dependiente
y = data['Y']

# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Agregar constante para el modelo de regresión
X_train = sm.add_constant(X_train)

# Ajustar el modelo paso a paso
model = sm.OLS(y_train, X_train).fit()

# Ver el resumen del modelo
print(model.summary())

# Aquí puedes aplicar el paso a paso manualmente o usar librerías especializadas como `skl

Facebook
Twitter
LinkedIn

Compártelo en redes

Utilizamos cookies para asegurar que damos la mejor experiencia al usuario en nuestra web. Si sigues utilizando este sitio asumimos que estás de acuerdo. VER