Un artículo de opinión reciente de David RandallLa contratación de profesores en las universidades estadounidenses se ha vuelto tan corrupta que requiere una intervención legislativa radical, dice el director ejecutivo de la Alianza Cívica y director de investigación de la Asociación Nacional de Académicos. Código de Mérito Docente Propuesto por la NAS Requeriría que las universidades públicas publiquen todos los puntajes de los exámenes estandarizados para la educación superior (SAT, ACT, GRE, LSAT, MCAT y más) para cada miembro del cuerpo docente y cada solicitante de un puesto docente en las distintas etapas de la búsqueda de docentes. El objetivo, afirman, es exponer la discriminación y restaurar el mérito.
Carta al editor
Se envió un mensaje en respuesta a este artículo. Puede leer la carta aquí y ver todas nuestras cartas al editor aquí.
La lógica de la propuesta es clara: si los puntajes de las pruebas estandarizadas son un indicador razonable del mérito docente, entonces una búsqueda justa debería seleccionar a alguien con puntajes muy altos. Si la puntuación promedio cae de una ronda a la siguiente, o si el reclutador final obtiene una puntuación inferior a docenas (o incluso cientos) de solicitantes rechazados, el público, dice Randall, debería poder “ver que algo anda mal”.
Pero el Código de Mérito Docente se basa en un grave malentendido sobre cómo funcionan realmente la medición y la selección. Incluso si se acepta la premisa de Randall de que la puntuación de las pruebas estandarizadas “no es un mal indicador del mérito docente”, las conclusiones a las que llega simplemente no se siguen. Las supuestas señales de alerta que la ley propuesta promete descubrir no son evidencia de corrupción. Son las consecuencias matemáticas esperadas del uso de una medida imperfecta en un gran grupo de solicitantes.
Soy un científico de datos que trabaja en temas de justicia social. Mi preocupación no es sólo que la propuesta de la NAS sea estadísticamente errónea, sino que pueda engañar al público y al mismo tiempo presentarse como transparente.
error estadístico
La ley propuesta se basa en una idea simple: si los puntajes de las pruebas estandarizadas son un indicador razonable del mérito docente, entonces una búsqueda justa debería seleccionar a alguien con un puntaje muy alto. Si la persona contratada recibe una puntuación inferior a la de varios solicitantes rechazados, o si la puntuación media baja de una ronda a la siguiente, algo debe andar mal.
Esto parece evidente. También está mal.
Para ver por qué, imagine la siguiente configuración. Cada solicitante tiene algún nivel de “verdadero mérito” para el puesto de profesor: originalidad, criterio de investigación, capacidad docente e idoneidad intelectual. No podemos observar este hecho directamente. En cambio, observamos una puntuación de prueba estandarizada, que captura algunos aspectos de la capacidad pero deja de lado muchos otros. En otras palabras, la puntuación de una prueba tiene dos partes: la señal (la parte relacionada con el mérito real) y el ruido (todo lo demás que la prueba no mide).
Ahora supongamos que la búsqueda atrae a 300 solicitantes, como en el ejemplo del propio Randall. Supongamos -muy generosamente- que el comité de búsqueda de alguna manera identifica a los mejores candidatos según sus verdaderos méritos y contrata a esa persona.
Aquí está el punto crucial: incluso si los puntajes de los exámenes estuvieran significativamente vinculados con el verdadero mérito, los mejores solicitantes nunca obtendrían los puntajes más altos.
¿Por qué? Porque cuando compite mucha gente, incluso el ruido moderado abruma las clasificaciones. Un procedimiento ruidoso siempre clasificará erróneamente a algunos individuos y, a medida que aumenta el tamaño del grupo, estas clasificaciones erróneas se vuelven más dramáticas. Esta es la misma razón por la que clasificar a los atletas profesionales según una sola habilidad, como el porcentaje de tiros libres, rutinariamente no da en el blanco a los mejores jugadores en general, especialmente en las grandes ligas.
¿Qué tan fuerte es realmente la relación entre las pruebas y el mérito?
Antes de poner números a esto, deberíamos plantearnos una pregunta empírica básica: ¿Cuán poderosas son las pruebas estandarizadas para predecir los tipos de resultados que importan en el mundo académico?
La investigación reciente más extensa sobre el GRE (el examen más relevante para la educación superior) encuentra un valor predictivo mínimo. Metaanálisis de más de 200 estudios. Encontró que los puntajes GRE explican poco más del 3 por ciento de la variación en los resultados de la escuela de posgrado, como el GPA, la finalización de títulos y el desempeño en exámenes de licenciatura. Específicamente para el GPA de posgrado (el puntaje para el cual la prueba fue diseñada explícitamente para predecir), los puntajes GRE explicaron solo alrededor del 4 por ciento de la varianza.
Estos estudios evalúan la predicción a corto plazo dentro del mismo contexto educativo: los puntajes de los exámenes GRE predicen los resultados de los estudiantes que toman el examen y se miden sólo unos años después, bajo condiciones que son máximamente favorables para la validez del examen. La propuesta de la NAS extrapola evidencia ya débil incluso en estas circunstancias favorables. La contratación de profesores se evaluará utilizando los puntajes de las pruebas (a menudo los puntajes del SAT) tomados a los 17 años y aplicados a candidatos que ahora pueden tener entre 30 y 40 años o más. La evidencia directa de este tipo de extrapolación a largo plazo es rara. Sin embargo, la evidencia limitada que existe sugiere relaciones más débiles que fuertes. Por ejemplo, Los estudios de contratación internos realizados por Google encontraron “Muy poca correlación” entre los puntajes del SAT y el desempeño laboral.
En conjunto, la investigación sugiere que cualquier relación realista entre los puntajes de las pruebas estandarizadas y los beneficios para los profesores es débil, y ciertamente muy por debajo de los niveles necesarios para respaldar los diagnósticos propuestos por la NAS.
¿Qué significa esto en la práctica?
La propuesta ley de mérito docente plantea una importante cuestión práctica: incluso si los resultados de los exámenes estandarizados contienen alguna información sobre el mérito, ¿qué utilidad tienen cuando cientos de solicitantes compiten por un solo puesto de trabajo?
Tomando el metanálisis GRE al pie de la letra, los puntajes de las pruebas estandarizadas se correlacionan con resultados académicos relevantes en solo aproximadamente 0,18. Tratar este número como un indicador del mérito del profesorado es ciertamente generoso, dadas las décadas que a menudo separan las pruebas de la contratación y las profundas diferencias entre las pruebas estandarizadas y el trabajo real de un profesor. Pero démoslo de todos modos.
Ahora piense en buscar con 300 solicitantes. Con una correlación de 0,18, calculo que el candidato más fuerte en términos de verdadero mérito normalmente obtendría sólo un 70 por ciento en la prueba, aproximadamente 90 sobre 300. En otras palabras, sería perfectamente normal que alrededor del 90 por ciento de los solicitantes rechazados tuvieran puntuaciones más altas en las pruebas que el empleado final.
No pasó nada inapropiado. No hay necesidad de favoritismo ni manipulación. Este resultado proviene automáticamente de la combinación de un agente débil y un gran grupo de solicitantes.
Incluso si asumimos una relación mucho más fuerte –digamos una correlación de 0,30, que ya está más allá de lo que la evidencia respalda para la mayoría de los resultados académicos– la conclusión básica no cambia. Bajo este supuesto, calculo que el mejor candidato sólo obtendría una puntuación en el percentil 80, lo que equivale a una clasificación más cercana a 60 sobre 300. Docenas de solicitantes rechazados seguirán teniendo puntuaciones más altas en los exámenes que la persona que consigue el trabajo.
Éste es el punto en el que la propuesta fracasa. Un patrón que usted trata como una señal de alerta (un empleado cuyos puntajes en los exámenes son más bajos que los de varios solicitantes rechazados) no es evidencia de corrupción. Es el corolario matemáticamente esperado cuando la selección se basa en una medida imperfecta. Ampliar este diagnóstico a muchas búsquedas no lo hace útil; Simplemente reproduce las mismas clasificaciones erróneas esperadas a mayor escala.
Por qué “las puntuaciones bajan en cada ronda” no prueba nada
La misma lógica se aplica a la afirmación de que las puntuaciones promedio de las pruebas deberían aumentar en cada etapa de la investigación.
La contratación de profesores no es unidimensional. Las primeras etapas pueden revelar competencia general; Las etapas posteriores pueden enfatizar la originalidad, la dirección de la investigación, la eficacia de la enseñanza y el ajuste transversal, atributos que las pruebas estandarizadas miden mal o no miden en absoluto. A medida que avanza la investigación, los comités naturalmente otorgan menos importancia a los resultados de las pruebas y más importancia a otra información. Cuando esto sucede, los puntajes promedio de las pruebas entre los finalistas pueden permanecer estables o incluso disminuir. Este patrón no indica manipulación. Indica que el comité selecciona dimensiones que realmente importan para el trabajo.
Transparencia, justicia y mal diagnóstico
El artículo de opinión de Randall, publicado por el Centro James G. Martin para la Renovación Académica, enmarca la propuesta como una respuesta a la injusticia. Pero la transparencia basada en diagnósticos incorrectos no alivia la injusticia; Él lo produce.
La publicación de los resultados de las pruebas estandarizadas invita al público a sacar conclusiones que estas cifras no pueden respaldar, y estas conclusiones no serán iguales. Los puntajes de las pruebas estandarizadas están fuertemente influenciados por el entorno socioeconómico y el acceso a los recursos. Se espera que tratarlo como una medida universal de mérito (particularmente para puestos docentes) prive a los académicos de caminos marginados y no tradicionales.
Desde el punto de vista de la justicia, esto es muy preocupante. Los mecanismos de rendición de cuentas deben basarse en el sentido común. De lo contrario, se convierten en herramientas para imponer la jerarquía en lugar de la justicia.
Si el objetivo es una verdadera renovación académica, debe comenzar por renovar nuestra comprensión de lo que los números pueden y no pueden decirnos. El mérito no se puede imponer mediante el uso de métricas falsas, ni se logra justicia a través de argumentos estadísticos que colapsan bajo un examen minucioso.















