Home Psicología Educacional En Estudios de errores forenses, el diablo está en los detalles

En Estudios de errores forenses, el diablo está en los detalles

Todos los días, los examinadores forenses comparan piezas de evidencia (p. ej., huellas dactilares, balas) y deciden si “coinciden”, es decir, provienen de la misma fuente (p. ej., persona, arma). Estas decisiones tienen implicaciones legales obvias, y aunque el público cree que los errores son muy raros, la desafortunada realidad es que simplemente no sabemos con qué frecuencia ocurren los errores de la ciencia forense. Afortunadamente, la marea está cambiando, ya que las agencias gubernamentales han pedido más estudios de “caja negra” para medir las tasas de error de los métodos forenses ampliamente utilizados.

A principios de este mes, me encontré con un artículo popular titulado “Los expertos forenses son sorprendentemente buenos para saber si dos muestras de escritura coinciden”. El artículo describía un nuevo estudio de comparación de escritura forense que, según el adelanto, demostró que “es efectivo si un examinador tiene la capacitación adecuada”. Continuó explicando que los examinadores en este estudio cometieron falso positivo errores—es decir, juzgar incorrectamente las muestras de escritura que no coinciden como coincidencias, lo que implica erróneamente a una persona inocente—solo el 3.1 por ciento de las veces.

Eso parecía una buena noticia, pero ¿era demasiado bueno para ser verdad? Decidí ir directamente a la fuente y leer el artículo de investigación en sí. Efectivamente, la primera estadística reportada en el propio resumen de los investigadores de sus hallazgos es que los examinadores cometieron errores falsos positivos solo el 3.1 por ciento de las veces. Pero a medida que seguí leyendo, noté más y más razones para dudar de ese número.

¿De dónde vino el 3,1 por ciento?

En el estudio, 86 examinadores forenses de escritura a mano analizaron cada uno 100 conjuntos de muestras de escritura a mano y decidieron si cada conjunto “coincidía” o no. Debido a que los investigadores sabían si cada conjunto era Realmente escrito por la misma persona), luego podrían calcular la cantidad y los tipos de errores que cometieron los examinadores.

En total, los 86 examinadores de este estudio emitieron 6576 juicios únicos, incluidos 2863 juicios de conjuntos coincidentes y 3713 juicios de conjuntos no coincidentes. De estos últimos, los examinadores juzgaron incorrectamente que las muestras no coincidentes habían sido escritas por la misma persona 114 veces, por lo tanto, una tasa de error de falsos positivos del 3,1 por ciento (114/3713).

Decidir no decidir

Quizás se esté preguntando: con 86 examinadores y 100 juegos de escritura a mano, ¿no debería haber 8600 juicios en total? Pero debido a que los examinadores no estaban requerido para juzgar los 100 conjuntos, algunos simplemente optaron por no hacerlo. De hecho, solo 45 examinadores juzgaron los 100 conjuntos, mientras que 16 examinadores respondieron menos de la mitad de los conjuntos.

No podemos saber por qué algunos examinadores se saltaron ciertos conjuntos; tal vez estaban demasiado ocupados o experimentaban dificultades técnicas. Pero si los examinadores tendieran a evitar conjuntos que fueran especialmente difíciles, lo cual es un lujo que no tienen en el mundo real, entonces los resultados del estudio sobrestimarían su verdadera habilidad. Por analogía, imagine si su puntaje SAT se basara solo en las preguntas que eligió responder; algunas personas responderían las preguntas más fáciles, se saltearían las más difíciles y recibirían puntajes altos poco realistas.

Los examinadores de este estudio también podrían juzgar los conjuntos de escritura a mano como “no concluyentes”, una opción que hacer tener en el mundo real, si sintieran que no había suficiente información para justificar una decisión en cualquier dirección. De los 3.713 juicios totales de conjuntos que no coinciden, 547 fueron juicios no concluyentes.

Los investigadores han debatido cuándo, si alguna vez, los juicios no concluyentes deben considerarse correctos, pero este estudio efectivamente los contó como siempre corregirlos incluyéndolos en el denominador del cálculo de la tasa de error. Es decir, si un examinador seleccionó “no concluyente” 100 veces, tendría una tasa de error del 0 por ciento (0/100). Pero para saber con qué frecuencia los examinadores decisiones fuera incorrecto, debemos eliminar los juicios inconclusos de ese cálculo, lo que aumentaría la tasa de error a 3.6 por ciento (114/3,166).

¿Cuestión de grado?

Pero se pone mucho peor. Cuando los examinadores tomaron una decisión en cualquier dirección, también indicaron si sentían que su decisión era “ciertamente” o “probablemente” correcta. Es importante destacar que las decisiones solo se consideraban errores si el examinador era incorrecto y cierto, que sucedió 114 veces. Pero si un examinador juzgó un conjunto no coincidente como probablemente una coincidencia, no se consideró un error, y eso sucedió 147 veces más.

Sin embargo, los jurados no hacen esta distinción. En un estudio reciente, por ejemplo, los jurados simulados fueron igualmente persuadidos por el testimonio de un examinador de armas de fuego, independientemente de si describió su opinión como “cierta” o “más probable que no”. Por lo tanto, en la práctica, las decisiones “probables” pero incorrectas no son menos dañinas que ciertas, e incluirlas eleva la tasa de errores de falsos positivos a un asombroso 8.2 por ciento (261/3,166).

Lecciones aprendidas

En total, una mirada más cercana a este estudio cuenta una historia muy diferente a la del artículo que me llevó a él. Mirando solo los casos en los que los examinadores optaron por tomar una decisión, implicaron erróneamente a una persona inocente el 8.2 por ciento de las veces y, al igual que otros estudios de validación forense, esos juicios se hicieron en condiciones favorables (por ejemplo, muestras largas, sin presión de tiempo), por lo que la tasa de error del mundo real puede ser incluso mayor. Además, estos mismos investigadores han publicado desde entonces un segundo estudio de “caja negra” de comparaciones de calzado que plantea preocupaciones similares.

No pretendo denigrar a estos investigadores; su trabajo es fundamental para mejorar la ciencia forense, y este estudio fue impresionantemente ambicioso, diligente y transparente. Tampoco pretendo denigrar al periodista que lo informó. Más bien, mi objetivo aquí es resaltar el valor, pero también la dificultad, de una comunicación científica clara y precisa.

A menudo es tentador reducir los hallazgos de un estudio complejo a un solo número digno de mención, incluso si es engañoso. Los periodistas deben tener en cuenta que los muros de pago y el analfabetismo científico impiden que muchos lectores critiquen la investigación original por sí mismos, por lo que es probable que sus relatos se tomen como un hecho. Para ayudar con esto, los investigadores también deben trabajar con los periodistas para asegurarse de que sus reportajes capturen los matices de su trabajo. El diablo puede estar en los detalles, pero también lo está la verdad.