Las Escalas Likert y la evaluación del profesorado

A continuación, responda a la siguiente pregunta con una puntuación del 1 al 5 siendo 1 muy en desacuerdo y 5 completamente de acuerdo.
“Las preguntas con respuesta tipo Likert son una buena forma de evaluar al profesorado”
Una encuestadora cualquiera

Seguro que esta forma de puntuación te resulta familiar ya que muchas encuestas utilizan este tipo de preguntas. En particular, dentro del mundo universitario, estas preguntas se usan para evaluar la calidad docente y tienen sus seguidores y sus detractores. Entre los últimos se encuentra mi querida Belén Palop (@bpalop en X), quien ha criticado muchas veces esta forma de medir.

Segunda llamada a las sociedades de estadística.
Muchas universidades miden la calidad de la docencia según lo que una muestra no representativa del alumnado contesta a las encuestas.
¿Algún comunicado al respecto?
¿Alguna idea para arreglar este despropósito? pic.twitter.com/rA5oDvFSI7
— B.Palop (@bpalop) November 8, 2023

¿Tiene razón Belen en esto? Ella habla de muestra no representativa pero lo cierto es que esto va mucho más allá…

¿Me dejas que te cuente?

Medir lo intangible.

Cuando hablamos de cosas que tienen que ver con nuestra percepción, como la calidad de la docencia, se hace muy difícil medir o cuantificar aquello que pensamos. Así, mientras que es fácil medir la altura o el nivel de glucosa en sangre de una forma relativamente sencilla, no nos resulta tan fácil medir la opinión, la capacidad intelectual o la depresión porque, en principio, carecemos de un dispositivo que nos permita hacerlo.

Con el fin de crear esos “aparatos de medida” surgen en psicometría las escalas.

Escalas Likert.

Una escala es un conjunto de preguntas (ítems) donde las respuestas ayudan a asignar un número para entender algo que no podemos medir directamente. En, particular, en una escala, cada ítem recibe una puntuación por parte de la persona encuestada, y estas puntuaciones se suman para obtener una puntuación final que debería tener un significado específico.

Una de las formas de preguntar en estas escalas es presentar afirmaciones, y la persona que responde elige entre opciones como «Nada de acuerdo», «En desacuerdo», «Ni de acuerdo ni en desacuerdo», «de acuerdo» o «Totalmente de acuerdo». A cada una de estas opciones se le asigna entonces un valor numérico del 1 al 5. Al finalizar, estas puntuaciones se suman para todos los ítems (generalmente más de 8), y eso forma lo que llamamos Escala Likert, en honor a Rensis Likert (1903–1981), quien las diseñó.

Llegados a este punto, es importante entender la diferencia entre una escala y las preguntas que la componen. Las escalas están diseñadas para dar un valor general, no para analizar cada pregunta por separado. Para explicarlo más fácilmente, permíteme usar un poco de matemáticas en estas escalas.

¿Cantidad o cualidad?

Cuando medimos cosas como la altura o la longitud, esperamos que ciertas condiciones básicas se cumplan. Por ejemplo, si dos ciudades están a 100 km de distancia, esperamos que nos cueste lo mismo llegar a una que a la otra (simplificando mucho, por supuesto, que ya sé que las autovías no cuestan lo mismo que las carreteras secundarias de montaña).

Sin embargo, cuando se trata de expresar una opinión, no es tan simple. Decir que nos cuesta lo mismo ir de «completamente de acuerdo» a «de acuerdo» que al revés, o de «completamente en desacuerdo» a «en desacuerdo», es complicado. Y cuando hablamos de «costar» piensa en ello como en cuántas razones necesitarías para cambiar tu opinión.

Esto significa que la respuesta a una pregunta en una escala no se puede considerar directamente como una cantidad o una variable cuantitativa. Y en ese caso, en lugar de usar resúmenes como la media y la varianza para analizar las respuestas de un grupo de personas, debemos recurrir a otras medidas, como la proporción de respuestas en cada categoría. Esto se debe a la «distancia» entre las puntuaciones pero también a que, al tratarse de opiniones, las respuestas suelen estar polarizadas hacia valores muy altos o bajos, haciendo que la media no sea una representación precisa.

Por ejemplo, la siguiente imagen muestra una encuesta docente en la que el Profesor 1 recibió 31 respuestas y el Profesor 2 recibió 29. Ambos tienen una media de 4.32 y 4.34, respectivamente. Pero, fíjate que el Profesor 1 tiene un mayor porcentaje de respuestas en las posiciones 3 y 4. Entonces, ¿con qué profesor te quedarías?

Ahora podrías echarme en cara que tengo razón pero que habíamos mencionado que en las escalas no se analiza cada respuesta de manera independiente. Vale, cierto pero la pregunta entonces es ¿es la suma una solución efectiva?

¿Y la suma sí funciona?

Es una pregunta interesante y, según mi limitado conocimiento, aún hay cierta controversia al respecto. No obstante, un aspecto clave que, en mi opinión, respalda la idea de que la suma funciona como una variable cuantitativa es que las escalas, como conjunto de ítems, están diseñadas para abordar una misma cuestión, y las diversas puntuaciones van perfilando nuestra respuesta. Por ejemplo, podemos preguntar de varias maneras sobre el nivel de ansiedad, y al combinar todas las respuestas, obtenemos una visión general más representativa de la que nos proporciona cada pregunta.

Además, de manera muy simplificada (y poco rigurosa), se puede ver desde la perspectiva del teorema central del límite, que establece que la suma de variables, sin importar cómo sean estas, termina comportándose como una variable normal (si no estás familiarizado con esto y quieres saber más te animo a visitar esta entrada).

Dicho esto, volvamos al tema principal. ¿Qué ocurre con las encuestas docentes? ¿Son escalas? ¿Se analizan correctamente?

Evaluaciones docentes

Tiene mucho sentido que, si queremos mejorar la calidad de la enseñanza, midamos de diferentes formas como está funcionando y, por supuesto, cuál es el desempeño del profesorado.

Algunas de esas mediciones tienen que ver con el número de aprobados y suspensos en primera y segunda convocatoria y en comparación con los presentados a los exámenes o con el total del alumnado. No voy a entrar yo en si los exámenes y el número de aprobados de una asignatura es representativo de algo, que para ese charco no tengo botas, pero sí puedo decir que esos porcentajes son resúmenes numéricos que tienen sentido con respecto a la variable que representan. Y no diré más.

Sin embargo, medir como se siente el alumnado ante esa asignatura o el profesor o profesora que la imparte es otro cantar. Primero porque, como ya hemos dicho, no es una variable observable directamente y segundo, porque es complicado elegir la muestra y por último porque es difícil valorar si ese conocimiento tiene alguna implicación práctica real.

Hablemos del primero problema ¿cómo medirla?

Las preguntas que se hacen

Actualmente, muchas universidades han optado por encuestas donde se preguntan por diferentes aspectos de la práctica docente, tanto al respecto del interés de la asignatura como de la actitud y aptitud de quien la imparte. Estas encuestas pretenden ser una escala Likert como las ya comentadas pero, ¿realmente lo son?

Pues bien, los ítems que conforman estas encuestas no suelen girar entorno a la misma cuestión exactamente, más bien suelen estar agrupados por bloques que sí lo hacen y que, por tanto, tratarían de acercar cada uno de esos bloques a lo que realmente son las escalas. Sin embargo ¿tienen suficientes preguntas?

Aquí tenéis un ejemplo con dos bloques de una de estas encuestas:

En concreto, la que os presento y más conozco tiene un total de 12 ítems agrupados en 6 bloques, donde el bloque más grande tiene 5 ítems. Además, esta encuesta tiene dos preguntas sueltas que hacen referencia a la satisfacción con la profesora o profesor.

En general, estoy satisfecho/satisfecha con lo que he aprendido con esta profesora.
Recomendaría a esta profesora a otros estudiantes.

Por tanto, parece que estas encuestas fallarían en la definición de lo que es una escala… empezamos mal.

Vayamos al segundo punto ¿quién responde las encuestas?

¿Quién responde las encuestas?

Normalmente responder una encuesta de cualquier tipo lleva tiempo, un tiempo que posiblemente no le dediques si el tema te resulta indiferente. Así pues, tendremos contestando a estas encuestas a muy poquitas personas: las más enfadadas o las más contentas de la clase -que producirán respuestas extremas- y quizás, con suerte, a unos cuantos con buena voluntad -que rellenarán poniendo mayoritariamente 3 y 4s.

Para que os hagáis una idea de cuantas son poquitas, deciros que en algunas de mis encuestas de años anteriores el porcentaje de respuesta más alto era de un 32% llegando a tener algunas asignaturas donde la encuesta no se ha considerado válida por tener menos de un 20% de respuesta.

Es interesante en este sentido fijarnos en las respuestas a este post que yo lanzaba ayer.

https://twitter.com/AnaBayes/status/1728316608429584426?s=20

El post lo vió relativamente bastante gente pero muy poquita respondió al mismo, y las respuestas son 1s o 4s y algún “Buenos días” (saludos a mi querida @tvaldessolis). Que sí, que X (antes twitter) no es el sitio para estas cosas y que igual la gente no está por la labor de contestarme a mí pero… no creáis que esto está muy lejos de la realidad de un aula universitaria.

En pocas palabras, habitualmente tendremos una muestra pequeña, sesgada y poco representativa del alumnado que nos atiende… y ojo, que forzar a que respondan puede no ser tampoco la mejor solución.

Y bien, queda el último paso, calcular las puntuaciones del profesorado y ver que nos dicen.

Puntuar

Para hablar de la puntuación, volvamos a las respuestas al tweet anterior. Entre ellas hay un par que para mí tienen especial relevancia.

La primera de @juandelapoza

Y lo peor de todo, ¡ofrecer los resultados con medias!
— Juan de la Poza (@juandelapoza) November 25, 2023

Juan nos habla sobre la práctica común de resumir las puntuaciones mediante la media para cada pregunta. Ya hemos discutido esto antes, pero se vuelve especialmente relevante en este contexto, donde las respuestas pueden ser extremas y sesgadas, haciendo que la media no sea el resumen más apropiado. Además, al menos en mi experiencia, el siguiente paso implica calcular el promedio de los resultados por bloque y luego promediar los bloques, presentando esa media como el resultado final.

Hasta aquí, podría aceptar la idea de promediar dentro de cada bloque, ya que la media es simplemente la suma dividida por el número de preguntas. Así, si todos los ítems del bloque tienen el mismo número de respuestas (es decir, nadie ha utilizado la opción NS/NC), esa media es básicamente como la media de la suma pero dividida por el número de preguntas. Y vale, aunque ya dijimos que las escalas debían tener más de 8 ítems, podría llegar a aceptarlo como medida de la puntuación de ese bloque.

Sin embargo, al promediar los promedios de cada bloque, donde estos pueden tener diferentes tamaños y estar formulados con intenciones diferentes, surge la pregunta: ¿qué nos está diciendo realmente sobre la profesora? Y aquí entra la segunda respuesta que me ha parecido interesante.

Dependerá no solo del tipo de respuestas posibles sino de las preguntas. Para que un test sea bueno ha de tener Validez y Fiabilidad. Y esto se mide, como cualquier instrumento de medida.
— H3(70r MiB (@Hector_MiB) November 25, 2023

Héctor nos habla de lo importante que es que la encuesta esté validada, es decir que, al igual que con un metro sabemos que estamos midiendo metros pues que con esta encuesta sepamos que estamos dando una medida de aquello que queremos medir, pero… ¿realmente sabemos lo que estamos midiendo aquí? ¿Y para qué servirá esa medida?

¿Algo qué podemos hacer?

Bueno, pues lamentablemente yo no tengo una respuesta clara, pero si unas pocas ideas que me rondan la cabeza y os las dejo por aquí por si sirven para reflexionar.

Lo primero y más importante sería conseguir muestras representativas del alumnado. Involucrarlos de alguna forma efectiva. No me preguntéis exactamente como, pero algo habría que hacer. Quizás incentivar a un grupo y que sean siempre los mismos alumnos para tener una visión robusta a lo largo del tiempo.
Por otra parte, habría que diseñar un cuestionario que realmente fuese una escala, con suficientes ítems por bloque, y que cada bloque tuviese su propio sentido. Que una asignatura dura por naturaleza o de esas que no le ves la utilidad hasta mucho tiempo después, no penalice al profesor o profesora que se lo curra para hacerla más amena.
Y, por último, sea como sea el cuestionario, analizarlo de forma adecuada. No valen las medias y las varianzas para puntuaciones cualitativas, ni mezclar churras con merinas al promediar medidas que nada tienen que ver.

Y hasta aquí mi disquisición de hoy. Espero que os sirva y que le guste a Belén Palop (@bpalop) que fue la incendiaria que me ha traído hasta aquí.

Gracias por leerme y dejarme contaros.

Las Escalas Likert y la evaluación del profesorado

Medir lo intangible.

Escalas Likert.

¿Cantidad o cualidad?

¿Y la suma sí funciona?

Evaluaciones docentes

Las preguntas que se hacen

¿Quién responde las encuestas?

Puntuar

¿Algo qué podemos hacer?

Me gusta esto:

Relacionado

Deja un comentarioCancelar respuesta

Las Escalas Likert y la evaluación del profesorado

Medir lo intangible.

Escalas Likert.

¿Cantidad o cualidad?

¿Y la suma sí funciona?

Evaluaciones docentes

Las preguntas que se hacen

¿Quién responde las encuestas?

Puntuar

¿Algo qué podemos hacer?

Comparte esto:

Me gusta esto:

Relacionado

Post navigation

Deja un comentarioCancelar respuesta