EL USO DE TEST Y ESCALAS
EN LA EVALUACIÓN

Resumen del artículo publicado por Bruce H. Choppin.
National Foundation for Educational
Research in England and Wales, Slough.

 

I. Instrumentos.

En este artículo usamos los términos "tests" y escalas para describir instrumentos de medición formales, que han sido diseñados para reunir información sobre las características del alumnado, de un modo organizado. Las características que involucran pueden ser habilidades, intereses, actitudes, conocimientos, aptitudes, etc., aun cuando con más frecuencia nos preocupamos del rendimiento escolar.

En general, se puede considerar al test como un conjunto de preguntas frente a las cuales existe un conjunto aceptado de respuestas verdaderas. El método usual de calificar, consiste en asignar marcas de acuerdo al número de respuestas correctas obtenidas, aun cuando ocasionalmente podrían ser más apropiados procedimientos más complejos. La palabra escala generalmente se usa para describir aquellos instrumentos en los que no es aplicable el tipo de preguntas verdadero o falso; vale decir, preguntas relacionadas con actitudes personales. Para tales conjuntos de preguntas, existen esquemas de calificación más complicados, lo que da un puntaje en escala, relacionada con una actitud, un interés, una conducta, etc.

Estandarización y objetividad

Los dos conceptos claves que se asocian con los instrumentos son la estandarización y la objetividad.

La estandarización se preocupa del control que poseamos sobre la situación en la cual reunimos la información. Debido a que tenemos alumnos que reaccionan diferentemente rente a un mismo estímulo, presentado en el mismo contexto, es como podemos comenzar a hacer interpretaciones diferentes sobre sus características. Donde no existe la uniformidad de condiciones, la interpretación de los resultados es muy difícil.

La objetividad se preocupa del grado en el cual una determinada parte de las conductas del estudiante proporciona una interpretación única.

El uso de test y escalas en la evaluación, implica una colección de información organizada sobre los alumnos. En general, mientras mayor sea el grado de estandarización y objetividad en la elaboración de tests (pruebas), los resultados son mejores.

II. Ventajas y desventajas de los tests y escalas.

Una desventaja evidente del uso de test o escalas o incluso de un instrumento estructurado, es que el investigador o el docente debe conocer por adelantado qué es lo que debe tratar de medir, observar o evaluar. Ya que el hacer tests es una actividad organizada, los objetivos que han sido pre-especificados determinarán el tipo de información que se puede obtener de las pruebas.

Si los criterios de éxito no se pueden especificar por anticipado, quizá se deba a que los objetivos nunca han sido formulados con claridad, entonces los tests y las escalas no son medios apropiados para reunir una evidencia útil.

Una desventaja del uso de tests y escalas es el costo muy considerable de estos métodos en términos de tiempo y esfuerzo. Los test y escalas deben prepararse con anticipación y la cantidad de trabajo que esto implica puede ser muy considerable.

Una ventaja del test, es que al controlar la situación se puede producir la conducta específica que se desea evaluar.

Otra ventaja está en los ideales de estandarización y objetividad mencionados más arriba que facilitan la comparabilidad de la información. En teoría, cualquier investigador o docente que use los mismos tests debería obtener los mismos resultados y esto es extremadamente valioso cuando es necesario obtener mediciones comparables de un gran número de alumnos.

III. Naturaleza de la información que se va a reunir.

A. Mediciones referidas a normas.

En el pasado, los tipos más frecuentes de información consistían esencialmente en un ordenamiento de rangos de los alumnos que rendían la prueba. Un examen de matemáticas producía un puntaje en un rango del 0 al 100 que probablemente no diría nada explícitamente sobre el nivel de matemática adquirido por el estudiante que obtenía un puntaje de 50, tan sólo dice que él conoce más matemáticas que otros estudiantes que tienen un puntaje de 40, pero menos que un tercero que tuvo un puntaje de 70.

Las informaciones referidas a normas son extremadamente valiosas cuando uno se preocupa de la agrupación de los estudiantes en determinados cursos o para dar un rango a los alumnos en algún orden de mérito. También pueden usarse para contrastar grupos.

La naturaleza de la información proporcionada por los tests referidos a normas, es esencialmente cuantitativa; pero las cantidades expresadas en términos de los puntajes del test no pueden ser inmediatamente transformados en cantidades de aprendizaje.

B. Mediciones referidas a criterios.

Estas mediciones proporcionan una información cualitativa sobre lo que el estudiante realmente puede hacer. Un buen ejemplo es un test de natación: si un estudiante puede nadar 50 metros a través de aguas profundas de un punto a otro, entonces podemos decir que ha pasado la prueba y que tenemos una información sobre su habilidad natatoria que se puede relacionar, pero no necesariamente tiene que relacionarse, con el rendimiento de otros estudiantes en el mismo test.

Las mediciones referidas a criterios están llegando a ser cada vez más importantes en la evaluación de los esquemas del "dominio integral del aprendizaje" (Bloom, 1971). En este tipo de clases, el objetivo del profesor reside en lograr que todos los estudiantes alcancen el nivel de dominio de los principales objetivos, en vez de una comparación de los puntajes promedios con otros grupos.

IV. Confiabilidad y validez

La confiabilidad y la validez son las propiedades más importantes en la medición; y de las dos, la validez es ciertamente, la más crucial. Digamos, de paso, que la medición es una etapa del proceso de evaluación.

La confiabilidad se refiere a la consistencia (fidelidad permanente) y nos dice hasta qué grado se puede esperar una lectura estable de mediciones repetidas. El caso de un termómetro que mide exactamente la temperatura.

La validez se preocupa de lo que un test o pregunta, realmente mide. O más precisamente, si mide lo que se supone que debería medir. Por ejemplo: se supone que un reloj sirve para medir verdaderamente el tiempo, y hacerlo en forma continua. Si lo hiciera, entonces diríamos que es perfectamente válido y confiable. Si mostrara el tiempo equivocado diríamos entonces que no es válido; si algunas veces se adelanta u otras se atrasa, lo llamaríamos no confiable.

El ejemplo del reloj es uno de medición referida a criterios.

V. Diferentes tipos de instrumentos.

Existe un gran número de tipos de test que comúnmente se usan, entre ellos están:

A. Ensayos.

El principal rasgo distintivo de un ensayo es la multiplicidad de información sobre el escritor, que éste contiene. Por lo general, no es razonable suponer que el autor es ignorante de temas que no menciona específicamente en su ensayo.

B. Fichas de trabajo de los alumnos.

Es una hoja con indicaciones sobre lo que el alumno debe de realizar, seguida de un cuestionario de respuestas cortas que muestra la información asimilada por el alumno.

C. Itemes de test objetivos.

Un trabajo más reciente de tests, ha sido la introducción de los ítemes de test objetivos. Estos son ítemes cuya respuestas posibles pueden clasificarse sólo en uno de dos grupos: correcto e incorrecto. El procedimiento usual ha sido arreglar que cada ítem tenga sólo una respuesta correcta con todas las otras respuestas incorrectas.

El primer tipo de ítem objetivo a considerar es el ítem de reemplazo. En tal ítem se le pide al estudiante que complete una frase (a menudo sólo una palabra o número) y luego se puede aplicar un esquema exacto de correcto-incorrecto.

Las otras clases de ítemes de test objetivos con los que se trata, son los de elección en los que el alumno tiene que seleccionar uno o más ítemes dentro de un conjunto de respuestas posibles presentadas.

Los ítemes de elección múltiple tienen un formato modelo. La parte inicial del ítem se llama raíz o base y conduce a una pregunta específica. A ésta le sigue una serie de respuestas alternativas en las que el alumno debe seleccionar la que es correcta. La elección correcta se llama la clave y las incorrectas son distractores.

Se requiere destreza para redactar buenos ítemes de elección múltiple, pero esto se puede adquirir mediante la experiencia. Los aspectos que deben tenerse en cuenta cuando se escriben estas preguntas son:

1. Las preguntas no deben ser ambiguas y solamente una de las respuestas alternativas debe ser la correcta.

2. Los distractores deben ser plausibles de modo que sólo puedan ser eliminados por la consideración de un estudiante que puede resolver correctamente el ítem.

La principal virtud de este tipo de ítemes es que se pueden administrar y calificar rápidamente. La calificación producida es definitiva: verdadera o falsa, y es relativamente fácil, por lo tanto, combinar los resultados de un gran número de alumnos.

Los exámenes compuestos de preguntas objetivas, por lo general, son más confiables y por consiguiente, a menudo se hacen mediciones más válidas del logro, que mediante exámenes no objetivos. Además, el nivel de aprendizaje que miden abarca desde la memorización hasta la aplicación (Block, 1977), y en algunos casos análisis y síntesis.

Cuando los distractores han sido bien elaborados, demostrando determinados tipos de error, proporciona información detallada sobre dónde la enseñanza no ha sido totalmente exitosa y qué remedio se requiere. Estos datos son la clave en la interpretación de los resultados de cualquier medición.

Deben tenerse presentes tres desventajas específicas: 1) mide la habilidad del alumno para reconocer la respuesta correcta cuando ésta se la muestra, en vez de desarrollar su habilidad para escribirla por sí mismo; 2) llama a adivinar, ya que un alumno que no tenga la habilidad para resolver el problema, puede que elija la respuesta correcta adivinando; 3) aún cuando resulta fácil construir ítemes de tests de elección múltiple para medir el conocimiento, es difícil elaborarlos con la finalidad de medir habilidades de orden superior como análisis y síntesis, pero no imposible.

VI. Procedimiento en la elaboración de tests.

A. Etapas en su elaboración.

1. Definición de objetivos.

El test apuntará, por lo general, a medir el rendimiento de una muestra del rango total de objetivos, siempre y cuando esta muestra sea representativa. Es importante, al comienzo, especificar el set completo de objetivos curriculares a evaluar, tan detalladamente como sea posible, es decir, elaborar la Tabla de Especificaciones. En ella se enlistan en columna los objetivos que se evaluarán, indicando en columnas paralelas el número de ítemes asignados al objetivo y qué porcentaje del total de reactivos corresponde a cada uno. Ejemplo:

Objetivos No. React. Porcent.

Indicará las causas de la Revolución 5 10

lo cual indica que para el objetivo enunciado se asignarán 5 respuestas correctas y constituyen un 10% del total del test.

2. Especificar el tipo de test.

Es necesario precisar si será referido a la norma o un criterio especial.

3. Elaboración de cada ítem (reactivo).

Pueden diseñarse en base a un conjunto de ítemes ya disponibles (banco de reactivos) o pueden componerse especialmente.

En la evaluación acumulativa, el interés se centrará en los puntajes de test, más bien que en el rendimiento de cada ítem, pero no es necesario restringir el test a un solo puntaje. Los ítemes se pueden agrupar de acuerdo a un tópico (subtest), dando calificaciones parciales (subpuntajes) y específicas. El número de los diferentes subpuntajes que se puede incluir es limitado debido a la necesidad de mantener la confiabilidad para cada uno. Como regla general, cada subtest debería contener, por lo menos, seis ítemes de tipo objetivo (o cuatro respuestas cortas si no es objetivo) pero se prefiere la longitud de diez ítemes de test.

4. Validez de contenidos.

El test no sólo debe ser confiable, por lo general debe ser aceptable como instrumento importante para medir el rendimiento del currículo.

5. Pretest, análisis y refinamiento de los ítemes.

En la evaluación acumulativa, frecuentemente es posible y deseable incluir en esta etapa una revisión del test. Apunta a mejorarlo mediante la identificación de las preguntas que no están funcionando satisfactoriamente y revisándolas para aumentar la confiabilidad total y quizá la validez del test.

6. Estandarización.

Aspecto crucial para una adecuada estructuración del test.

7. Análisis y retroalimentación.

El análisis, por regla general, es estadístico. Y la interpretación se hará en base a los puntajes y subpuntajes, más que al rendimiento de cada ítem.

B. El uso de conjuntos de ítemes y de un banco de reactivos.

La larga duración de procesamiento y, puesto que muchos miles de buenos reactivos de test sobre diferentes materias del programa escolar ya se han realizado, parecería aconsejable tomar ventaja de esto donde quiera que sea posible. Es conveniente establecer un conjunto de ítemes referidos a un área del currículo o a partes de éste.

BIBLIOGRAFIA

Lewy Arieh, Handbook of curriculum evaluation, Unesco 1976.