El rezago en el registro de los datos de COVID-19: Precauciones para analistas de datos - Animal Político
close
Recibe noticias a través de nuestro newsletter
¡Gracias! Desde ahora recibirás un correo diario con las noticias más relevantes.
sync
El Contagio
Por PADeCI. Proyecto de Análisis de Decisiones en Contextos Inciertos
PADeCI es un equipo interdisciplinario enfocado en promover la toma de decisiones basadas en evid... PADeCI es un equipo interdisciplinario enfocado en promover la toma de decisiones basadas en evidencia científica para la generación de políticas públicas. Nos dedicamos a crear modelos de decisión, análisis de información y generación de evidencia en ciencias de la decisión, salud pública, epidemiología, medicina, políticas públicas, economía, matemáticas y estadística. Compartiremos diversos análisis con técnicas novedosas de manera accesible sobre temas de coyuntura en políticas de salud. (Leer más)
El rezago en el registro de los datos de COVID-19: Precauciones para analistas de datos
El rezago en el registro de los datos de nuevos casos confirmados de COVID-19 en México es un ejemplo claro de los retos que debe llevar en mente cualquier persona que analice estos datos. En este caso, no es posible sortear el problema debido a que el proceso mismo de la generación de los datos implica un atraso.
Por Regina Isabel Medina, Yadira Peralta, Andrea Luviano
27 de mayo, 2020
Comparte

Los fenómenos sociales son escurridizos y difíciles de estudiar, en el sentido de que aquella persona que desee entender alguno no puede hacerlo sometiéndolo a pruebas de laboratorio. La científica o el científico social debe trabajar con datos observacionales —es decir, con la información que se recopila sobre la actividad tal cual como se genera sobre la marcha y siempre tratando de alcanzar ciertos estándares de calidad—. De esta manera, cualquier análisis siempre está sometido a la calidad de los datos que se generan. Pero, hay que dejar algo claro desde el principio: los datos nunca son perfectos, ni suficientes. Este corolario compromete a la investigadora a mantenerse alerta y conocer siempre cuáles son las deficiencias de sus datos, la piedra angular de cualquier análisis. Para ejemplificar esta situación dentro del contexto del COVID-19, en esta columna se explorará el rezago sistemático en las cifras oficiales que son reportadas por la Secretaría de Salud a través de la Dirección General de Epidemiología.

¿En qué consiste el rezago?

La urgencia por mitigar los efectos perniciosos de la pandemia del coronavirus obliga a realizar un análisis de la situación en tiempo real. Cualquier gráfica, estadística descriptiva o proyección epidemiológica debe contar con la información más reciente para que sea pertinente y fidedigna. Por desgracia, el proceso para identificar a una persona con síntomas, diagnosticarla con COVID-19, registrarla en el sistema estatal y reportarla a la base de datos federal no puede realizarse con la premura con la que se demandan respuestas. ¿Qué implica este intrincado procedimiento? En cuestión de datos: implica que los números reportados para nuevos casos confirmados suele estar rezagado. Puesto de manera simple, los nuevos casos confirmados de COVID-19 rara vez son reportados el mismo día en el que la persona enferma llega a una unidad médica y le realizan una prueba, es necesario que transcurran algunos días para que, finalmente, dicha persona aparezca en el sistema. Esto significa que los datos reportados no son estáticos, sino que el número de casos confirmados para una misma fecha va aumentando conforme transcurren los días. El tiempo en el que un caso confirmado —es decir una persona con el padecimiento confirmado por una prueba de laboratorio— se incorpora al registro puede comprender desde un día, un par de semanas o incluso más.

Dos conceptos que usaremos de manera continua son fecha de confirmación y fecha de reporte. Fecha de confirmación se refiere a la fecha en que una observación aparece como un nuevo caso confirmado en la base de datos. En las bases de datos abiertos, esta fecha viene etiquetada como “fecha de ingreso”, que es la fecha en que la persona ingresa a una unidad médica. La fecha de reporte es la fecha en que la base de datos es liberada por la Dirección General de Epidemiología.

Visualización

En un principio, la noción del rezago en los datos resulta difícil de comprender. La siguiente gráfica plasma el fenómeno anteriormente descrito para facilitar su asimilación. La gráfica presenta el número de casos confirmados de COVID-19 para el 24 de abril de acuerdo con las diferentes fechas de registro en que los datos fueron liberados. Es decir, se presentan múltiples fechas de reporte de los datos para una sola fecha de confirmación: el 24 de abril. Se eligió esta fecha para realizar este ejercicio, sin embargo, los hallazgos comentados son muy similares para cualquier otro día. Como se aprecia en la gráfica, el número no es estático, sino que varía conforme avanza el tiempo. El 24 de abril se reportó que había sólo un nuevo caso confirmado ese día; al día siguiente, el 25 de abril, se reportó que el 24 de abril se confirmaron 51 casos; el reporte de dos días después, el correspondiente al 26 de abril, ya indicaba que el 24 de abril se habían confirmado 235 casos. Dicha cifra continuó aumentando de manera significativa durante una semana entera, para después tener una semana de incrementos más pequeños, hasta estabilizarse alrededor de los 1,495 casos. Aunque el comportamiento es más estable, es notorio que incluso después de un mes sigue habiendo alteraciones en el número de casos confirmados para ese mismo día, incluyendo días de reporte en los que hay cambios negativos.

El patrón revelado en la gráfica anterior tiene diferentes implicaciones. Por ejemplo, el número de casos nuevos confirmados que se reporta día a día no se refiere a casos nuevos confirmados ese mismo día, sino confirmados en cualquier día desde el inicio de la pandemia. Tomemos como ejemplo la fecha de reporte del 25 de abril, ese día se reportaron 1,305 casos nuevos. En la siguiente gráfica se muestran los nuevos casos reportados según la fecha de confirmación (sólo se ilustran 857 casos que corresponden a los acontecidos en los siete días previos al día del reporte) y se observa que ninguno fue confirmado el propio 25 de abril. De hecho, 50 de esos nuevos casos reportados fueron confirmados el 24 de abril; 222 casos fueron confirmados el 23 de abril y 184 casos se confirmaron el 22 de abril.

Atención, dado que sólo se grafica una semana, se muestran sólo 857 casos de los 1,305 nuevos casos confirmados que fueron reportados el 25 de abril. Esto significa que los 448 casos faltantes fueron confirmados más de una semana antes del reporte. En otras palabras, los casos nuevos que se reportan en un día específico en realidad se distribuyen a lo largo de diferentes fechas. Para ilustrar esta idea, la siguiente gráfica muestra la fecha a la que pertenecen los casos nuevos reportados el domingo 24 de mayo a nivel nacional. A diferencia de la gráfica previa que se limitaba a los 7 días de diagnóstico previos al reporte, ésta reporta todas las fechas de confirmación incluidas en esta fecha de registro.

En la gráfica anterior se aprecia que ninguno de los nuevos casos reportados ese día habían sido confirmados el mismo 24 de mayo, mientras que 16 casos habían sido confirmados el día anterior. La mayoría de los casos, 710, habían sido confirmados tres días antes, el 21 de mayo. Esta gráfica señala que hay cambios sustanciales en las tres semanas previas al reporte. Aunque también hay cambios en fechas de hasta dos meses atrás, como lo evidencian los 3 casos que fueron confirmados el 16 de abril, pero que no habían sido reportados. Finalmente, hay que resaltar los cambios negativos a lo largo de toda la distribución. En el registro del 24 de mayo hay cambios negativos en cuatro ocasiones: el 7, el 24, el 26 y el 27 de abril.

Los cambios negativos muestran que la volatilidad de los datos no se debe únicamente a nuevos casos confirmados, sino también a modificaciones en los ya existentes. Por ejemplo, una misma persona puede haberse registrado como confirmada el 2 de febrero y después cambiar a haber sido confirmada el 14 de marzo. Esta modificación implicaría una observación menos el 2 de febrero y una más el 14 de marzo, aunque el número global de casos no se altere. También es posible que ciertas observaciones desaparezcan del registro. Para saber cuál es el caso, cada una de estas variaciones debe ser rastreada con el identificador único proporcionado en los datos abiertos.

Conclusión

El rezago en el registro de los datos de nuevos casos confirmados de COVID-19 en México es un ejemplo claro de los retos que debe llevar en mente cualquier persona que analice estos datos. En este caso, no es posible sortear el problema debido a que el proceso mismo de la generación de los datos implica un atraso. Sin embargo, tener presente esta característica de la información permite que las y los investigadores puedan tomar la cautela necesaria para plantear las preguntas correctas, así como las conclusiones adecuadas. La decisión sobre cómo abordar el problema o qué medias preventivas tomar depende de cada persona, por ejemplo, aquellos usando estos datos para realizar proyecciones pueden optar por omitir la información de los últimos días para evitar cambios bruscos en la tendencia de los datos o añadir una nota de advertencia en el texto. Cualquiera que sea el contexto o la pregunta de investigación, el caso del rezago en el registro de los casos nuevos de COVID-19 muestra por qué la persona que realiza análisis de datos siempre debe conocer la naturaleza de sus datos, así como el proceso que genera la información que alimenta sus investigaciones, desde antes de aventurarse a realizar cualquier encomienda científica.

@PADeCI1

Lo que hacemos en Animal Político requiere de periodistas profesionales, trabajo en equipo, mantener diálogo con los lectores y algo muy importante: independencia. Tú puedes ayudarnos a seguir. Sé parte del equipo. Suscríbete a Animal Político, recibe beneficios y apoya el periodismo libre.

#YoSoyAnimal
Comparte
close
¡Muchas gracias!

Estamos procesando tu membresía, por favor sé paciente, este proceso puede tomar hasta dos minutos.

No cierres esta ventana.