A continuaci贸n, presento el procedimiento a seguir para la soluci贸n de la tarea T3, asignada por el profesor Oskar Casquero, para evaluar nuestras competencias en an谩lisis estad铆stico.
Planteamiento:
Unos investigadores desarrollan un nuevo entorno virtual de aprendizaje basado en Google Apps. Para evaluar la incidencia de la utilizaci贸n de este nuevo entorno en las calificaciones de los estudiantes, durante dos a帽os se realiza un estudio de caso con dos grupos de estudiantes: un grupo de control que utiliza Moodle y un grupo experimental que utiliza Google Apps; el reparto de sujetos entre ambos grupos se realiza siguiendo un criterio de paridad de sexo.
Objetivos:
Hip贸tesis de investigaci贸n:
La calificaci贸n promedio de los estudiantes que usan Moodle es diferente a la calificaci贸n promedio de los estudiantes que usan Google Apps,en funci贸n del sexo.
Procedimiento
Primeramente descargamos desde Dropbox el archivo que contiene los datos a ser analizados, Notas-2grupos-v3.csv. (Figura 1)
Planteamiento:
Unos investigadores desarrollan un nuevo entorno virtual de aprendizaje basado en Google Apps. Para evaluar la incidencia de la utilizaci贸n de este nuevo entorno en las calificaciones de los estudiantes, durante dos a帽os se realiza un estudio de caso con dos grupos de estudiantes: un grupo de control que utiliza Moodle y un grupo experimental que utiliza Google Apps; el reparto de sujetos entre ambos grupos se realiza siguiendo un criterio de paridad de sexo.
Objetivos:
- Analizar si existen diferencias estad铆sticamente significativas en las calificaciones en funci贸n del grupo y del sexo.
- Calcular si existe una interacci贸n estad铆sticamente significativa entre las variables grupo y sexo.
Hip贸tesis de investigaci贸n:
La calificaci贸n promedio de los estudiantes que usan Moodle es diferente a la calificaci贸n promedio de los estudiantes que usan Google Apps,en funci贸n del sexo.
Procedimiento
Primeramente descargamos desde Dropbox el archivo que contiene los datos a ser analizados, Notas-2grupos-v3.csv. (Figura 1)
Figura 1
Ya que tenemos el archivo descargado, procedemos a importarlo en una hoja de trabajo de Excel (Figura 2).
Dibujamos un gr谩fico de interacci贸n con las medias de las calificaciones obtenidas, y este es el resultado (Figura 9).
Al observar el gr谩fico, nos percatamos que debido a que los dos factores de la investigaci贸n (grupo y sexo) interact煤an, esto nos dice que el efecto del factor grupo, depende del nivel del factor sexo.
Con los resultados de la f贸rmula AOV(), se puede concluir que existen evidencias suficientemente fuertes como para apoyar la afirmaci贸n de que existe una interacci贸n estad铆sticamente significativa entre las variables grupo y sexo (p-value < 5%).
Al parecer puede haber un efecto principal del entorno de trabajo y del sexo como resultado de las calificaciones de los estudiantes. Tambi茅n parece que hay un efecto principal del entorno, los que usaron Google Apps obtuvieron mejores calificaciones. Sin embargo, el efecto de la variable del entorno depende del sexo (y viceversa): los de sexo masculino obtuvieron las mejores calificaciones, pero los de sexo femenino obtuvieron las calificaciones m谩s bajas.
Figura 2
Elegimos el archivo a importar, y luego especificamos si estar谩 delimitado por un caracter y si el archivo incluye los encabezados de cada columna. (Figura 3)
Figura 3
Especificamos el tipo de caracter que est谩 sirviendo como delimitador. En este caso, se usa el punto y coma (;). (Figura 4)
Figura 4
Establecemos el tipo de datos que se almacena en cada columna. Debido a que son tipos de datos diferentes, elegimos general, que aplica a cualquier tipo de dato.
Figura 5
Seleccionamos ahora donde colocar los datos importados, puede ser en la hoja de trabajo activa o en una nueva hoja de trabajo.
Figura 6
La siguiente imagen (Figura 7) muestra como aparecen los datos, organizados en filas y columnas. Como se puede ver, la tabla tiene 4 columnas o variables (sujeto, grupo, nota y sexo).
Figura 7
Observo y Reflexiono
Por simple observaci贸n, podr铆amos decir que es evidente la existencia de una distribuci贸n de datos con notoria diferencia significativa, donde las calificaciones var铆an tanto por sexo, como por grupo. Observo adem谩s, que el grupo que us贸 Google Apps, obtuvo mayores calificaciones, predominando los hombres con mayor calificaci贸n que las mujeres. Pero como la estad铆stica, no es solo observaci贸n, sino an谩lisis, procederemos a elaborar un gr谩fico de interacci贸n entre las variables grupo y sexo, como variables independientes y notas, como variable dependiente.
Para esto, calculamos los promedios con las siguientes f贸rmulas, combinando las variables grupo y sexo, es decir: Moodle-Male, Moodle-Female, GoogleApps-Male, GoogleApps-Female, como se visualiza m谩s abajo (Figura 8).
Figura 8
Dibujo el gr谩fico de interacci贸n
Figura 9
En otras palabras, que existe una relaci贸n de dependencia entre las variables grupo, sexo y nota y por eso ocurre tal interacci贸n. Por tanto, los resultados que refleja el gr谩fico en cierta forma coincidieron con lo observado anteriormente, donde se denot贸 que las calificaciones de un grupo y un sexo determinado presentaban un mayor valor. Esto se muestra en el gr谩fico, donde con las medias obtenidas se visualiza que los hombres que usaron Moodle obtuvieron las notas m谩s bajas de los cuatro grupos, mientras que los hombres que usaron Google Apps obtuvieron las m谩s altas de los cuatro grupos.
Por otro lado, las mujeres que usaron Moodle, a pesar de que no obtuvieron las notas m谩s bajas de los cuatro grupos, obtuvieron una calificaci贸n menor que la obtenida por las mujeres que usaron Google Apps. Es decir, que usando Moodle, las mujeres obtienen mejores calificaciones, mientras que usando Google Apps, los hombres son los que obtienen las mayores calificaciones.
Figura 10
¿Qu茅 les parece si verificamos si existen diferencias estad铆sticamente significativas en las calificaciones, en funci贸n del grupo y el sexo?
Iniciamos importando el conjunto de datos en la herramienta Rstudio, para habilitar las variables para su c谩lculo (Figura 11).
Figura 11
Realizamos las siguientes f贸rmulas con el objetivo de crear 4 subconjuntos en funci贸n del grupo y el sexo: grupomoodlem, grupomoodlef, grupogooglem y grupogooglef (Figura 12).
Figura 12
Usando el comando tapply, vamos a calcular las medias por grupo y sexo.
Figura 13
Ahora, calculamos la t de Student, para los subconjuntos que usaron Moodle y para los dos subconjuntos que usaron Google Apps (Figura 14). Es decir, verificaremos si los hombres que usaron Google Apps, efectivamente tienen mayores calificaciones, que las mujeres que tambi茅n usaron Google Apps. Del mismo modo, verificaremos si las mujeres que usaron Moodle, efectivamente tienen mayores calificaciones, que los hombres que tambi茅n usaron Moodle.
Figura 14
No se ustedes, pero yo estoy sorprendida, ya que, aunque los valores de las medias para los cuatro grupos es diferente, el p-value presenta el mismo valor (0.5 %). Por tanto, en ambos casos existen diferencias estad铆sticamente significativas en las calificaciones en funci贸n del grupo y el sexo (p-value < 5%). Esto es midiendo la sgnificancia estad铆stica en el mismo grupo, pero diferente sexo.
Sin embargo, m谩s interesante a煤n es observar que el p-value es igual en ambos casos, y creo que se debe a la interacci贸n que existe entre las variables grupo, sexo y nota. Lo verificar茅 m谩s adelante con la funci贸n AOV().
Vamos ahora hacer lo contrario, vamos a medir si existen diferencias estad铆sticamente significativas tomando en cuenta el mismo sexo, pero diferentes entornos. Es decir, comprobaremos si podemos afirmar que las mujeres que usaron Google Apps obtuvieron mejores calificaciones que aquellas que usaron Moodle, y lo mismo para los hombres (Figura 15).
Figura 15
Aqu铆 observamos, contrario al caso anterior, que no podemos afirmar que las mujeres que usan Google Apps obtienen mejores notas que las que usan Moodle, debido a que p-value es igual a 10% (p-value > 5%). Sin embargo, el caso de los hombres es diferente, ya que ciertamente podemos afirmar que los hombres que usan Google Apps obtienen mejores calificaciones que aquellos que usan Moodle, con un p-value igual a 0.00002% (p-value < 5%), y casi igual a cero.
Ahora uso AOV() para verificar si adem谩s existe una interacci贸n estad铆sticamente significativa entre las variables grupo y sexo (Figura 16).
Figura 16