Manual de Stata
El objetivo de desarrollar una manual de Stata para llevar a cabo los análisis estadísticos más comunes, no es otro que el de intentar hacer más intuitivo o didáctico el utilizar este paquete estadístico, muy común en el desarrollo de modelos econométricos, pero no tan conocido en el caso de contrastes de hipótesis sobre parámetros poblacionales, y cuya interfaz gráfica no es demasiado amigable, o al menos no lo es tanto en el caso de las tablas de resultados (output), como pueden ser sus competidores en el mercado; aunque como siempre suele ocurrir, tienes sus ventajas, como puede ser la de reflejar el p-valor para cada tipo de contraste (unilateral o bilateral) en dichas salidas de resultados, y tiene sus desventajas, como puede ser la visualización del editor de datos, o limitaciones de tener que introducir código para algunos análisis en concreto, o los nada intuitivos menús de comandos, y cuadros de diálogos subyacentes.
Índice del Artículo
Eliminación de Outliers
Con el gráfico de caja y bigotes o diagrama box-plot, se puede llevar a cabo la detección de outliers o atípicos, los cuales pueden desvirtuar el resultado de nuestra inferencia estadística, esto es, extrapolar los resultados de lo muestral a lo poblacional. Depurar nuestra base de datos antes de importarla desde Excel, o directamente desde la ventana del editor de Stata, es el paso previo fundamental antes de comprobar los supuestos de partida de cualquier test estadístico.
Los registros/casos/filas fuera del límite inferior o superior, son considerados atípicos, susceptibles de eliminar de nuestra base de datos, procediendo a depurar la misma.
Supuestos de partida
- La variable dependiente es una variable cuantitativa continua (de escala o razón).
- Normalidad. La variable dependiente debe distribuirse como una curva normal, en cada grupo.
- Homoscedasticidad: Las varianzas de las puntuaciones de la variable dependiente deben ser homogéneas en los grupos.
- Independencia. Dentro de cada grupo, cada puntuación/valor debe pertenecer a casos distintos, o lo que es lo mismo, ser independientes entre sí.
Como el p-valor asociado al estadístico del contraste de normalidad de Shapiro-Wilk es mayor que 0,05, se cumple el supuesto de que la varaible dependiente se distribuye como Normal. Como el p-valor asociado al estadístico del contraste de homocedasticidad (homogeneidad de varianzas) es mayor que 0,05, no se viola este supuesto de partida, y se puede proceder desde un punto de vista paramétrico.
PARAMÉTRICOS
Test de comparativa de medias con varianzas poblacionales desconocidas pero supuestamente iguales
Ho: µ1=µ2
Ha: µ1<>µ2
Las medias poblacionales de la variable dependiente en estudio son homogéneas o no:
Como el p-valor asociado al T-Test es menor que 0,05, el contraste resulta estadísticamente significativo, tanto si es bilateral, como si es unilateral derecho. Si es unilateral izquierdo (siempre hipótesis alternativa planteada por investigador), la variable dependiente no presenta diferencias en media entre los 2 grupos testados, con un nivel de confianza del 95%.
Test de comparativa de medias con varianzas poblacionales desconocidas pero distintas (Welch)
Ho: µ1=µ2
Ha: µ1<>µ2
El Test de igualdad de medias con varianzas no homogéneas en Stata se realiza activando las casillas de verificación de varianzas desiguales y de aproximación de Welch. En función del p-valor y del tipo de contraste, se rechaza o no la hipótesis nula de igualdad de medias.
Test de comparativa de medias de muestras dependientes (antes/después)
Ho: µantes=µdespués
Ha: µantes<>µdespués
Se contrasta el que si la media poblacional de la variable diferencia es igual a 0 contra que no, si el contraste es bilateral, o los 2 contrastes unilaterales vistos en los casos anteriores, con sus correspondientes p-valor asociados que refleja el output de los comandos de menú de la captura de pantalla de STATA.
Contraste de Proporciones
Ho: P1=P2
Comparativa de proporciones poblacionales, el p-valor asociado al estadístico de la Z nos indica si se rechaza o no el Test de igualdad de 2 proporciones, al hacer inferencia y extrapolar los resultados de las % muestrales a la población.
ANOVA de 1 Factor
Ho: µ1=µ2=µ3=…=µn
ANOVA de 1 factor con pruebas Post-Hoc de comparaciones múltiples de Bonferroni y Scheffé para, en el caso de encontrar diferencias significativas en algún par de muestras a través de la Tabla Anova, reflejar cuáles son esas diferencias en concreto.
ANOVA de 2 Factores
Ho: µ1=µ2=µ3=…=µn
El ANOVA de 2 factores con Stata se puede ejecutar a través de código desde la ventana de comando, mediante la sguiente línea de sintaxis:
anova variable dependiente factor1 factor2 factor1#factor2
Si el p-valor asociado al estadístico F de la columna de la derecha es menor que 0,05, el factor en concreto (efectos principales) es significativo. Si el valor de ‘Prob>F’ es menor que 0,05 para la interacción de ambos factores, esta resulta también estadísitcamente significativa.
Correlación y Regresión Múltiple
A partir de una correlación lineal importante entre la variable dependiente y las independientes, y siempre con un valor del R cuadrado ajustado también lo suficientemente elevado, se procede a llevar a cabo un ajuste para predecir los valores de la variable de respuesta a partir de las explicativas o factores, y ver si la influencia de las mismas, es lo suficientemente relevante, a partir de un valor de p menor que 0,05, lo que se considera estadísticamente significativo de cara a que la variable entre a formar parte del modelo de predicción, se rechace la H0 de que cada coeficiente de regresión es 0, y se puedan interpretar estos Betas.
ENFOQUE NO PARAMÉTRICO
Test de comparativa de medianas de la U de Mann-Whitney
Ho: Me1=Me2
Ha:Me1<>Me2
Una vez que demostrado que las medianas son diferentes (o la suma de rangos positivos distintas de los negativos), se comprueba desde un punto de vista gráfico (descriptivo), que la mediana del grupo 0 (de control) es mayor que la del grupo del tratamiento (grupo 1), por lo que el programa de dieta y ejercicio, ha surtido efecto con respecto a la variable dependiente peso, teniendo lugar un descenso del peso mediano.