Contrastes de Hipótesis con Gretl
Índice del Artículo
Importar archivo de la base de datos de Microsoft Excel
Se selecciona directorio/ruta donde están ubicadas las tablas de nuestra base de datos de Excel, de cara a importar y conseguir un nuevo archivo GRETL y se selecciona en la pestaña de fichero de datos, el tipo de Ficheros de Excel (*.xlsx).
T-Test de comparativa de medias poblacionales
Supuestos de partida
TEST DE NORMALIDAD
¿Existe Normalidad en la distribución de los datos objeto de estudio?
En Gretl, al ser un software diseñado especialmente para Econometría y Series Temporales, solo se puede realizar la prueba de Normalidad de los residuos (perturbación aleatoria), siempre de cara a construir un modelo de regresión múltiple GLM para predecir los valores de la variable dependiente, a partir de los valores de las variables independientes, no la prueba de Normalidad de distribución de los datos de la variable de respuesta, como exige un Test Paramétrico como es el T-TEST de la T de Student para comparar 2 medias poblacionales. Una posible solución es recurrir a la Asimetría y Curtosis con la opción de ‘Estadística Descriptiva’ del complemento Análisis de Datos (complemento de Excel), y si está próxima a 0 en ambos casos, se puede concluir que se tiende a la Normalidad en la distribución, o recurrir (más científico) a las pruebas correspondientes con SPSS, Minitab, Statgraphics…
Como el tamaño muestral es menor de 50, se mira el P-VALOR (Sig.) asociado al estadístico de Shapiro-Wilk, si es mayor que 0,05, no se puede rechazar el que los valores de la variable en concreto se distribuyen normalmente, por el contrario, si son menores que 0,05, el contraste de Normalidad es significativo, se rechaza la normalidad, y no se puede proceder a realizar la T de Student, la variable no presenta normalidad.
Hipótesis nula: [Diferencia de medias = 0]
Muestra 1:
n = 10, media = 36.22, d.t. = 1.1351
Desviación típica de la media = 0.358949
Intervalo de confianza 95% para la media: 35.408 a 37.032
Muestra 2:
n = 10, media = 38.07, d.t. = 1.25614
Desviación típica de la media = 0.397226
Intervalo de confianza 95% para la media: 37.1714 a 38.9686
Estadístico de contraste: t(18) = (36.22 – 38.07)/0.535381 = -3.45548
Valor p a dos colas = 0.002822
(a una cola = 0.001411)
Si el p-valor asociado al estadístico de contraste bilateraldel T-test es mayor de 0,05, no se puede rechazar la Ho (hipótesis nula) de que las medias de las 2 rentabilidades se comportan de la misma manera en media, resultados que se extrapolan a la población, con un 95% de confianza. Si sale menor de 0,05, se rechaza la Ho, el contraste es significativo, existen diferencias entre ambas medias, y se comprueba descriptivamente cual es mayor o menor, la que tenga mayor media aritmética, con lo que se concluye.
Aunque el software estadístico gratuito GRETL está principalmente enfocado al mundo de la Econometría y a las Series Temporales, es posible llevar a cabo los principales contrastes tanto paramétricos (comparativa de media/s poblacionales, homogeneidad de varianzas y proporción/es poblacionales, a partir de las muestrales), como test no paramétricos, basados en la/s mediana/s, y siempre y cuando no se cumpla el supuesto de normalidad de la distribución.
HOMOCEDASTICIDAD
Hay que comprobar también el supuesto de homogeneidad de varianzas (Homocedasticidad), para poder efectivamente activar la casilla de ‘Suponer desviación típica poblacional común’ en el contraste anterior de igualdad de medias. Como el p-valor asociado al estadístico F de homogeneidad de varianzas es de 0,7677, mayor que 0,05, no se puede rechazar la hipótesis de homocedasticidad, por lo que ambas muestras se comportan de la misma manera encuanto a variabilidad, con un 95% de confianza. Como se cumplen los supuestos de normalidad y homocedasticidad, tiene sentido el llevar a cabo el test de comparativa de medias, como es el de la T de Student, que acabamos de realizar en el apartado anterior.
Análisis de Correlaciones
Ho: Independencia entre ambas variables continuas
corr(GPA, TUCE) = 0.38698626
Bajo la hipótesis nula de no correlación:
t(30) = 2.29871, con valor p a dos colas 0.0287
El test de correlación resulta estadísticamente significativo (0,087<0,05) al 95% de nivel de confianza, se rechaza la hipótesis de que no existe relación entre las variables, aunque a partir del coeficiente de correlación lineal de Pearson se comprueba que tal asociación, no es excesivamente importante (0,3869<0,5).