EL RIGOR ESTADÍSTICO SUSPENDE EN PANDEMIA
DAVID BOLLERO
Hace un par de semanas, comentábamos en este espacio el libro Bullshit, contra la charlatanería (Capitán Swing), en el que se aborda la desinformación y cómo en ocasiones ésta se debe a un deficiente trabajo estadístico, sin que la mala intención tenga participación en ello. Pues bien, hoy traemos un caso práctico de ello: investigadores de la Fundación ISI (Italia), dedicada a la investigación en el campo de la Ciencia de los Datos, han publicado un estudio en Cambridge University Press advirtiendo del incorrecto uso estadístico que se ha realizado de los datos asociados a la pandemia.
El estudio se
centra en dos países, España e Italia, con similares resultados en ambos casos,
evidenciando las inconsistencias en el reporte de datos asociados a la
pandemia. En nuestro país pudimos comprobar durante todo 2020 cómo las cifras bailaban
de unas semanas a otras, algunas Comunidades Autónomas actualizaban de golpe
decenas de miles de contagios o muertes o, como aún sucede hoy en día, no se
informaba los fines de semana. Desde la óptica estadística, se ha suspendido;
suspenso que aún se evidencia más si se profundiza en la materia, como ha
realizado este grupo de expertos.
Estas
inconsistencias, en las que rara vez se pone el acento, forman parte de la base
de las estrategias sanitarias, de la evaluación de las mismas y de cualquier
toma de decisión para contener la pandemia. Precisamente por ello, los autores
del estudio, que sugieren que los problemas detectados en España e Italia
(especialmente durante la primera ola) son extrapolables a otros países,
reclaman mejores procedimientos de recopilación de datos y presentación de
informes más uniformes y coherentes.
Los cuatro grandes
criterios que se manejaban en lo peor de la pandemia eran:
♦ Número de casos
por fecha de infección. Determina el momento exacto en el que una persona contrae
la enfermedad.
♦ Número de casos
por fecha de inicio de síntomas. Registra el momento en que la enfermedad da la
cara, estando sujeto a la discrecionalidad del sujeto. En el caso de las
personas asintomáticas, este criterio se pierde.
♦ Número de casos
por fecha de diagnóstico. Precisa el momento en el que se diagnostica la
infección y aquí es importante que no es lo mismo que se realice tras la
aparición de síntomas que como resultado de un rastreo que coja la fase de
incubación, pudiendo mitigarse la capacidad de contagio.
♦ Número de casos
por fecha de notificación. Engloba el número de casos diagnosticados de los que
informan las autoridades sanitarias.
El estudio indica
que, especialmente durante la primera ola, se produjo un retraso entre el
inicio de los síntomas y el diagnóstico, sobre todo debido a la presión
hospitalaria y el retraso en las pruebas. Al analizar el impacto de la
implantación de las restricciones por países, los datos terminan por ser
imprecisos; en el caso de España, debido a la transferencia de competencias por
Comunidades Autónomas, que aplicaron diferentes plazos para la imposición de
dichas restricciones.
La investigación
incide en que el impacto de usar datos poco precisos no sólo impacta en la
efectividad de las restricciones sanitarias, sino también en los procesos de
toma de decisiones. Se producen inconsistencias, sobre todo cuando se toma la
serie de datos referidos a la primera ola, porque no son un fiel reflejo de la
realidad al producirse esa demora entre la aparición de síntomas y el
diagnóstico, algo en lo que se ha mejorado a medida que la pandemia ha
avanzado.
Durante el
confinamiento hubo un periodo en España en el que se detuvieron por completo
todas las actividades no esenciales, desde el 30 de marzo hasta el 9 de abril.
Esta medida excepcional no se ha incluido en el conjunto de datos estadísticos
que maneja el Centro Europeo para la Prevención y el Control de Enfermedades
(ECDC), por lo que la medición de los efectos de las restricciones no es real.
No sólo eso, sino que incluso esa medida, que indudablemente tuvo un importante
efecto sobre el PIB, pudo ser innecesaria.
Los datos que
maneja esta investigación muestran cómo aquella medida tuvo un impacto mínimo
sobre la movilidad, dado que ya estábamos confinados y, además, su efecto en la
propagación de los contagios fue insignificante. De hecho, los investigadores
indican que de no haberse producido esta imprecisión en los datos durante la
primera ola, se habría determinado que ese parón total de la actividad era
innecesario para el control de la pandemia. Conclusiones como ésta se han
podido realizar a posteriori, porque a pesar de que durante la primera ola se
recopilaban datos como la aparición de síntomas, éstos no fueron expuestos
públicamente hasta tiempo después, evidenciando que no fueron bien
interpretados.
En todo caso y aun
teniendo en cuenta estos sesgos, la investigación indica que la evaluación del
impacto de las restricciones es compleja, sobre todo cuando se comparan países.
Uno de los motivos de ello es que la capacidad diagnóstica no es homogénea
entre países, lo que afecta la precisión de los datos de vigilancia de casos.
Lo mismo sucede con las notificaciones de fallecimientos por Covid.
Para tratar de
resolver esta problemática, los autores proponen promover más la información
abierta, es decir, que los datos de resultados de COVID-19 estén disponibles
públicamente en un formato legible por sistemas informáticos, preferiblemente
utilizando repositorios de versiones de código abierto que permitan realizar un
seguimiento de las actualizaciones. En este sentido, ser exhaustivos,
segmentando datos por edad, sexo, raza y etnia, también es fundamental,
aseguran.
Más allá de esta
exposición de datos, la investigación insta a redoblar esfuerzos para que se
minimicen las demoras entre el momento en que se produce el diagnóstico de un
positivo, la hospitalización o el fallecimiento y cuándo se reporta de ello. No
sólo eso, sino que se ha de ser mucho más riguroso en las fechas, precisando si
el reporte de un positivo se refiere a cuándo se realizó la prueba o cuándo se
obtuvo el resultado.
En esta misma
línea, en países como España surge la complejidad de que debido a las
competencias transferidas entran en juego demasiados actores que, incluso por
motivos políticos, pueden llegar a interferir en la recolección y difusión de
los datos, lo que perjudica gravemente al global estadístico.
Por último y más
aún encontrándonos en plena era big data, una de las principales demandas que
se desprenden de este estudio es la imperiosa necesidad de dar al rigor
estadístico la importancia que merece pues sin ello, ningún sistema sofisticado
de Inteligencia Artificial o supercomputación hará un buen trabajo... y de ello
dependen las decisiones que tomen las autoridades sanitarias.
No hay comentarios:
Publicar un comentario