T3: ¿Realmente existe una interacción entre calificación, grupo y sexo? ~ <b>PORTFOLIO DE GLORENZO007</b>

A continuación, presento el procedimiento a seguir para la solución de la tarea T3, asignada por el profesor Oskar Casquero, para evaluar nuestras competencias en análisis estadístico.

Planteamiento:
Unos investigadores desarrollan un nuevo entorno virtual de aprendizaje basado en Google Apps. Para evaluar la incidencia de la utilización de este nuevo entorno en las calificaciones de los estudiantes, durante dos años se realiza un estudio de caso con dos grupos de estudiantes: un grupo de control que utiliza Moodle y un grupo experimental que utiliza Google Apps; el reparto de sujetos entre ambos grupos se realiza siguiendo un criterio de paridad de sexo.

Objetivos:

Analizar si existen diferencias estadísticamente significativas en las calificaciones en función del grupo y del sexo.
Calcular si existe una interacción estadísticamente significativa entre las variables grupo y sexo.

Hipótesis de investigación:
La calificación promedio de los estudiantes que usan Moodle es diferente a la calificación promedio de los estudiantes que usan Google Apps,en función del sexo.

Procedimiento
Primeramente descargamos desde Dropbox el archivo que contiene los datos a ser analizados, Notas-2grupos-v3.csv. (Figura 1)

Figura 1

Ya que tenemos el archivo descargado, procedemos a importarlo en una hoja de trabajo de Excel (Figura 2).

Figura 2

Elegimos el archivo a importar, y luego especificamos si estará delimitado por un caracter y si el archivo incluye los encabezados de cada columna. (Figura 3)

Figura 3

Especificamos el tipo de caracter que está sirviendo como delimitador. En este caso, se usa el punto y coma (;). (Figura 4)

Figura 4

Establecemos el tipo de datos que se almacena en cada columna. Debido a que son tipos de datos diferentes, elegimos general, que aplica a cualquier tipo de dato.

Figura 5

Seleccionamos ahora donde colocar los datos importados, puede ser en la hoja de trabajo activa o en una nueva hoja de trabajo.

Figura 6

La siguiente imagen (Figura 7) muestra como aparecen los datos, organizados en filas y columnas. Como se puede ver, la tabla tiene 4 columnas o variables (sujeto, grupo, nota y sexo).

Figura 7

Observo y Reflexiono

Por simple observación, podríamos decir que es evidente la existencia de una distribución de datos con notoria diferencia significativa, donde las calificaciones varían tanto por sexo, como por grupo. Observo además, que el grupo que usó Google Apps, obtuvo mayores calificaciones, predominando los hombres con mayor calificación que las mujeres. Pero como la estadística, no es solo observación, sino análisis, procederemos a elaborar un gráfico de interacción entre las variables grupo y sexo, como variables independientes y notas, como variable dependiente.

Para esto, calculamos los promedios con las siguientes fórmulas, combinando las variables grupo y sexo, es decir: Moodle-Male, Moodle-Female, GoogleApps-Male, GoogleApps-Female, como se visualiza más abajo (Figura 8).

Figura 8

Dibujo el gráfico de interacción

Dibujamos un gráfico de interacción con las medias de las calificaciones obtenidas, y este es el resultado (Figura 9).

Figura 9

Al observar el gráfico, nos percatamos que debido a que los dos factores de la investigación (grupo y sexo) interactúan, esto nos dice que el efecto del factor grupo, depende del nivel del factor sexo.

En otras palabras, que existe una relación de dependencia entre las variables grupo, sexo y nota y por eso ocurre tal interacción. Por tanto, los resultados que refleja el gráfico en cierta forma coincidieron con lo observado anteriormente, donde se denotó que las calificaciones de un grupo y un sexo determinado presentaban un mayor valor. Esto se muestra en el gráfico, donde con las medias obtenidas se visualiza que los hombres que usaron Moodle obtuvieron las notas más bajas de los cuatro grupos, mientras que los hombres que usaron Google Apps obtuvieron las más altas de los cuatro grupos.

Por otro lado, las mujeres que usaron Moodle, a pesar de que no obtuvieron las notas más bajas de los cuatro grupos, obtuvieron una calificación menor que la obtenida por las mujeres que usaron Google Apps. Es decir, que usando Moodle, las mujeres obtienen mejores calificaciones, mientras que usando Google Apps, los hombres son los que obtienen las mayores calificaciones.

Figura 10

¿Qué les parece si verificamos si existen diferencias estadísticamente significativas en las calificaciones, en función del grupo y el sexo?

Iniciamos importando el conjunto de datos en la herramienta Rstudio, para habilitar las variables para su cálculo (Figura 11).

Figura 11

Realizamos las siguientes fórmulas con el objetivo de crear 4 subconjuntos en función del grupo y el sexo: grupomoodlem, grupomoodlef, grupogooglem y grupogooglef (Figura 12).

Figura 12

Usando el comando tapply, vamos a calcular las medias por grupo y sexo.

Figura 13

Ahora, calculamos la t de Student, para los subconjuntos que usaron Moodle y para los dos subconjuntos que usaron Google Apps (Figura 14). Es decir, verificaremos si los hombres que usaron Google Apps, efectivamente tienen mayores calificaciones, que las mujeres que también usaron Google Apps. Del mismo modo, verificaremos si las mujeres que usaron Moodle, efectivamente tienen mayores calificaciones, que los hombres que también usaron Moodle.

Figura 14

No se ustedes, pero yo estoy sorprendida, ya que, aunque los valores de las medias para los cuatro grupos es diferente, el p-value presenta el mismo valor (0.5 %). Por tanto, en ambos casos existen diferencias estadísticamente significativas en las calificaciones en función del grupo y el sexo (p-value < 5%). Esto es midiendo la sgnificancia estadística en el mismo grupo, pero diferente sexo.

Sin embargo, más interesante aún es observar que el p-value es igual en ambos casos, y creo que se debe a la interacción que existe entre las variables grupo, sexo y nota. Lo verificaré más adelante con la función AOV().

Vamos ahora hacer lo contrario, vamos a medir si existen diferencias estadísticamente significativas tomando en cuenta el mismo sexo, pero diferentes entornos. Es decir, comprobaremos si podemos afirmar que las mujeres que usaron Google Apps obtuvieron mejores calificaciones que aquellas que usaron Moodle, y lo mismo para los hombres (Figura 15).

Figura 15

Aquí observamos, contrario al caso anterior, que no podemos afirmar que las mujeres que usan Google Apps obtienen mejores notas que las que usan Moodle, debido a que p-value es igual a 10% (p-value > 5%). Sin embargo, el caso de los hombres es diferente, ya que ciertamente podemos afirmar que los hombres que usan Google Apps obtienen mejores calificaciones que aquellos que usan Moodle, con un p-value igual a 0.00002% (p-value < 5%), y casi igual a cero.

Ahora uso AOV() para verificar si además existe una interacción estadísticamente significativa entre las variables grupo y sexo (Figura 16).

Figura 16

Con los resultados de la fórmula AOV(), se puede concluir que existen evidencias suficientemente fuertes como para apoyar la afirmación de que existe una interacción estadísticamente significativa entre las variables grupo y sexo (p-value < 5%).

Al parecer puede haber un efecto principal del entorno de trabajo y del sexo como resultado de las calificaciones de los estudiantes. También parece que hay un efecto principal del entorno, los que usaron Google Apps obtuvieron mejores calificaciones. Sin embargo, el efecto de la variable del entorno depende del sexo (y viceversa): los de sexo masculino obtuvieron las mejores calificaciones, pero los de sexo femenino obtuvieron las calificaciones más bajas.