Manual de Stata

Manual de Stata

Manual de Stata

 

Manual de Stata

 

El objetivo de desarrollar una manual de Stata para llevar a cabo los análisis estadísticos más comunes, no es otro que el de intentar hacer más intuitivo o didáctico el utilizar este paquete estadístico, muy común en el desarrollo de modelos econométricos, pero no tan conocido en el caso de contrastes de hipótesis sobre parámetros poblacionales, y cuya interfaz gráfica no es demasiado amigable, o al menos no lo es tanto en el caso de las tablas de resultados (output), como pueden ser sus competidores en el mercado; aunque como siempre suele ocurrir, tienes sus ventajas, como puede ser la de reflejar el p-valor para cada tipo de contraste (unilateral o bilateral) en dichas salidas de resultados, y tiene sus desventajas, como puede ser la visualización del editor de datos, o limitaciones de tener que introducir código para algunos análisis en concreto, o los nada intuitivos menús de comandos, y cuadros de diálogos subyacentes.

 

Eliminación de Outliers

 

Gráfico de caja y bigotes para la detección de outliers o atípicos con Stata

 

Con el gráfico de caja y bigotes o diagrama box-plot, se puede llevar a cabo la detección de outliers o atípicos, los cuales pueden desvirtuar el resultado de nuestra inferencia estadística, esto es, extrapolar los resultados de lo muestral a lo poblacional. Depurar nuestra base de datos antes de importarla desde Excel, o directamente desde la ventana del editor de Stata, es el paso previo fundamental antes de comprobar los supuestos de partida de cualquier test estadístico.

 

Box-Plot con Stata

 

Valores del diagrama de caja

 

Los registros/casos/filas fuera del límite inferior o superior, son considerados atípicos, susceptibles de eliminar de nuestra base de datos, procediendo a depurar la misma.

 

Supuestos de partida

 

  • La variable dependiente es una variable cuantitativa continua (de escala o razón).
  • Normalidad. La  variable dependiente debe distribuirse como una curva normal, en cada grupo.
  • Homoscedasticidad: Las varianzas de las puntuaciones de la variable dependiente deben ser homogéneas en los grupos.
  • Independencia. Dentro de cada grupo, cada puntuación/valor debe pertenecer a casos distintos, o lo que es lo mismo,  ser independientes entre sí.

 

Supuestos de partida en Stata

Como el p-valor asociado al estadístico del contraste de normalidad de Shapiro-Wilk es mayor que 0,05, se cumple el supuesto de que la varaible dependiente se distribuye como Normal. Como el p-valor asociado al estadístico del contraste de homocedasticidad (homogeneidad de varianzas) es mayor que 0,05, no se viola este supuesto de partida, y se puede proceder desde un punto de vista paramétrico.

 

PARAMÉTRICOS

 

Test de comparativa de medias con varianzas poblacionales desconocidas pero supuestamente iguales

Ho: µ1=µ2

Ha: µ1<>µ2

Las medias poblacionales de la variable dependiente en estudio son homogéneas o no:

T de Student varianzas iguales

Como el p-valor asociado al T-Test es menor que 0,05, el contraste resulta estadísticamente significativo, tanto si es bilateral, como si es unilateral derecho. Si es unilateral izquierdo (siempre hipótesis alternativa planteada por investigador), la variable dependiente no presenta diferencias en media entre los 2 grupos testados, con un nivel de confianza del 95%.

 

Test de comparativa de medias con varianzas poblacionales desconocidas pero distintas (Welch)

Ho: µ1=µ2

Ha: µ1<>µ2

Test de igualdad de medias con varianzas no homogéneas en Stata

 

El Test de igualdad de medias con varianzas no homogéneas en Stata se realiza activando las casillas de verificación de varianzas desiguales y de aproximación de Welch. En función del p-valor y del tipo de contraste, se rechaza o no la hipótesis nula de igualdad de medias.

Test de comparativa de medias de muestras dependientes (antes/después)

Ho: µantesdespués

Ha: µantes<>µdespués

T de Student muestras relacionadas

 

Se contrasta el que si la media poblacional de la variable diferencia es igual a 0 contra que no, si el contraste es bilateral, o los 2 contrastes unilaterales vistos en los casos anteriores, con sus correspondientes p-valor asociados que refleja el output de los comandos de menú de la captura de pantalla de STATA.

 

Contraste de Proporciones

Ho: P1=P2

Comparativa de proporciones poblacionales, el p-valor asociado al estadístico de la Z nos indica si se rechaza o no el Test de igualdad de 2 proporciones, al hacer inferencia y extrapolar los resultados de las % muestrales a la población.

 

Test de proporciones en Stata

Resultados test de %

 

ANOVA de 1 Factor

Ho: µ1=µ2=µ3=…=µn

 

ANOVA de 1 factor con pruebas Post-Hoc

 

ANOVA de 1 factor con pruebas Post-Hoc de comparaciones múltiples de Bonferroni y Scheffé para, en el caso de encontrar diferencias significativas en algún par de muestras a través de la Tabla Anova, reflejar cuáles son esas diferencias en concreto.

 

ANOVA de 2 Factores

 

Ho: µ1=µ2=µ3=…=µn

El ANOVA de 2 factores con Stata se puede ejecutar a través de código desde la ventana de comando, mediante la sguiente línea de sintaxis:

anova variable dependiente factor1 factor2 factor1#factor2

 

ANOVA de 2 factores con Stata

 

Si el p-valor asociado al estadístico F de la columna de la derecha es menor que 0,05, el factor en concreto (efectos principales) es significativo. Si el valor de ‘Prob>F’ es menor que 0,05 para la interacción de ambos factores, esta resulta también estadísitcamente significativa.

 

Correlación y Regresión Múltiple

 

Correlación y regresión múltiple

A partir de una correlación lineal importante entre la variable dependiente y las independientes, y siempre con un valor del R cuadrado ajustado también lo suficientemente elevado, se procede a llevar a cabo un ajuste para predecir los valores de la variable de respuesta a partir de las explicativas o factores, y ver si la influencia de las mismas, es lo suficientemente relevante, a partir de un valor de p menor que 0,05, lo que se considera estadísticamente significativo de cara a que la variable entre a formar parte del modelo de predicción, se rechace la H0 de que cada coeficiente de regresión es 0, y se puedan interpretar estos Betas.

 

ENFOQUE NO PARAMÉTRICO

 

Test de comparativa de medianas de la U de Mann-Whitney

 

U de Mann Whitney

 

Ho: Me1=Me2

Ha:Me1<>Me2

 

Comparar medianas con Stata

 

Una vez que demostrado que las medianas son diferentes (o la suma de rangos positivos distintas de los negativos), se comprueba desde un punto de vista gráfico (descriptivo), que la mediana del grupo 0 (de control) es mayor que la del grupo del tratamiento (grupo 1), por lo que el programa de dieta y ejercicio, ha surtido efecto con respecto a la variable dependiente peso, teniendo lugar un descenso del peso mediano.