Cómo no hacer periodismo de datos

El pasado 4 de enero, Excélsior publicó como nota principal “De PAN y PRD, los estados con más crímenes; cifras del secretariado”. Pero un análisis adecuado de los datos está lejos de apoyar esa conclusión. Creemos que el ejercicio analítico realizado en esta nota es emblemático de los problemas en los que muchos medios incurren en el análisis de datos. Aprovechamos esos problemas para hacer una guía de errores.

Por: Adrián Lara (@adrianlgara) y Mariano Munóz (@mariano_mnz)

El periodismo de datos, como cualquier otro ejercicio que implica un análisis cuantitativo, se enfrenta a una serie de errores prácticos que terminan por viciar las conclusiones de nuestras investigaciones. Ante el creciente interés por el acceso y manejo de datos públicos, es importante detenernos a identificar los principales errores en los que pueden incurrirse y aprender cómo evitarlos.

Con este objetivo en mente, tomamos como inspiración y ejemplo la nota publicada por el periódico Excélsior hace un mes. En ella, la redacción de este periódico, basándose en la información publicada por el Secretariado Ejecutivo del Sistema Nacional de Seguridad Pública, concluye que en 2017 los estados más violentos en la República fueron aquellos gobernados por el PAN y el PRD.

Para validar su argumento, los autores de dicha nota señalan que de 2016 a 2017 la tasa de homicidios, de extorsiones, secuestros y robos de autos creció más en los estados del PAN-PRD. Además, la nota presta especial atención a los estados en donde en 2016 el PRI perdió gubernaturas que antes eran suyas. Estos estados son, según Excélsior, aquellos en donde la violencia creció más durante 2017.

La conclusión que Excélsior realiza está basada en un análisis sesgado e incompleto. Decimos esto porque la nota incurre en los errores más comunes del análisis cuantitativo: comparaciones incompletas, sin contexto, sin casos contrafactuales y con poca temporalidad.

Con el fin de evitar incurrir en estos errores, les presentamos una guía de 5 puntos que exponen los errores más comunes del periodismo de datos y la manera correcta de analizar nuestra información.

1. Pensar en totales, no en tasas

Uno de los malos hábitos más comunes en el análisis de datos es manejar totales en lugar de tasas. Claro, las cifras totales siempre son más llamativas y persuasivas; pero omiten una parte importante de todo análisis: la proporcionalidad.

Un gran número de homicidios totales no necesariamente implica una gran tasa de homicidios, ni tampoco una gran tasa de homicidios implica un gran número de homicidios totales. La clave está en el tamaño de la población. Entre más grande sea la proporción entre las cifras totales y la población, más alta será la tasa, y más intenso será el fenómeno dentro de la población que analizamos. Si pensamos en el caso de la tasa de homicidios, entre más alta sea esta, los homicidios cobrarán una mayor proporción de vidas. No es lo mismo que 100 personas mueran asesinadas en una población de 1,000 habitantes que en una de 50,000 habitantes.

Si bien la nota del Excélsior se enfoca en su mayor parte en una comparación entre tasas, termina cayendo en el hábito antes mencionado: el uso de cifras totales. La nota señala que de enero a noviembre de 2017 hubo 23.1 mil homicidios dolosos, y que, de este total, 66% ocurrió en estados del PAN-PRD. El problema con este dato es que busca insinuar que debido a que más homicidios ocurrieron en esos estados, entonces esto automáticamente los convierte en los estados más violentos del país.

La realidad es que hubo estados que, aunque reportaron un total de homicidios muy alto, obtuvieron tasas de homicidios muy bajas. Por ejemplo, cuando anualizamos los datos del secretariado para diciembre, obtenemos que para Nuevo León reporta 616 homicidios, pero una tasa de 11.78 homicidios por cada 100 mil habitantes. Algo similar sucede con Puebla y el Estado de México, el primero reportando 928 homicidios con una tasa anualizada de 14.70 homicidios por cada 100 mil habitantes, mientras que el segundo -el caso más extremo- reporta 2029 homicidios, pero una tasa de tan solo 11.69 homicidios por cada 100 mil habitantes.

2. Comparar sin contexto

Al momento de analizar la tendencia que nuestras variables siguen es esencial identificar el contexto en la que estas se desarrollan. No es lo mismo, por ejemplo, que una población reporte una tasa de 120 enfermos por cada 100 mil habitantes en una temporada de epidemia que reporte esta misma tasa en un período de relativa salubridad. Bajo sus respectivas circunstancias, el primer caso nos habla de una situación ordinaria, mientras que el segundo nos habla de una anomalía.

Y es justamente la falta de contexto lo que constituye otra de las carencias en el análisis del Excélsior. Cierto, el año pasado los estados gobernados por los partidos que ahora integran el Frente sufrieron un aumento en la tasa de averiguaciones previas por homicidio doloso. Lo que no dice Excélsior es que la violencia no creció sólo en esos estados, sino que aumentó en todo el país.

Excélsior también omitió mencionar que la tendencia al alza de la violencia a nivel nacional se presentó desde 2015. Como se observa en la gráfica, la violencia alcanzó uno de sus picos más altos en el año 2011, el año más violento hasta este 2017. En 2011 se registró una tasa nacional de 19.4 homicidios por cada 100 mil habitantes, a partir de ahí hasta 2014, la tasa tendió a disminuir llegando a 12.96 homicidios por 100 mil habitantes en ese año. Sin embargo, la violencia regresó desde 2015, hasta superar la tasa de 2011 el año pasado.

De enero a noviembre de 2017 se abrieron 23,101 averiguaciones por homicidio doloso en el país. Con el supuesto de que la tendencia se mantuvo en diciembre, el total anualizado sería de 25,201 averiguaciones. Lo que da como resultado una tasa nacional de 20.4 homicidios por 100 mil habitantes. Una tasa superior a la de 2011, que haría del 2017 el año más violento desde 1997.

Curiosamente, su nota termina por enfocarse sólo en los cambios en la tasa de homicidios de 2017 respecto a la tasa de 2016, únicamente en los estados donde perdió el PRI en 2016. Pero nada dice de las comparaciones vis a vis de los estados mexicanos en el contexto del 2017. Decimos esto porque cuando anualizamos las tasas de todos los estados de la República, encontramos que de entre los 5 más violentos, 3 están gobernados por el PRI (Sinaloa, Guerrero y Colima) y 2 por el PAN-PRD (Baja California, Baja California Sur). De entre estos 5, el más violento fue Colima, con una tasa anualizada de 91 homicidios por cada 100 mil habitantes.

3. Sorprenderte por lo inmediato sin pensar en la tendencia y en su evolución

Cuando contextualizamos, también debemos identificar en qué momento aparece la tendencia observada en nuestras variables. El problema es que en ocasiones los efectos más impactantes pueden manifestarse con tanta intensidad y espontaneidad, que pasamos por alto que los primeros signos de estos efectos ya se habían presentado con anterioridad.
Este fue otro de los errores en los que cayó Excélsior, pues como ya hemos mencionado, su nota se enfoca solo en el cambio de las tasas de violencia en los estados que en 2016 optaron por no continuar con un gobierno priísta. Para lograrlo, los autores argumentan que en 2017- el primer año de gobierno de los nuevos gobernadores- varios de ellos mostraron niveles muy altos de violencia.

Sin embargo, el análisis del Excélsior omite que antes de que estos estados sufrieran la explosión de violencia del 2017, algunos de ellos ya habían mostrado signos de que la violencia iba en subida. En Chihuahua, Tamaulipas y Veracruz la tendencia al alza en la tasa de homicidios se dio en el mismo año que a nivel nacional: en 2015. Es decir, la violencia ya estaba subiendo desde un año antes de la elección a gobernador, cuando aún gobernaba el PRI. Donde efectivamente el cambio sí se dio a partir de 2016, fue en Aguascalientes y Quintana Roo, donde hoy gobiernan los partidos del Frente.

Además, la nota del Excélsior tampoco menciona que la violencia también incrementó en los estados donde el PRI ganó el puesto a gobernador en 2016. Estos fueron Colima, Hidalgo, Oaxaca, Sinaloa, Tlaxcala y Zacatecas. En todos ellos la violencia siguió a la tendencia nacional, es decir, aumentó desde 2015. Sin embargo, Colima, Sinaloa y Zacatecas experimentaron un cambio más fuerte a partir de 2016, lo que coincidió en cada caso con la entrada de un nuevo gobierno príista. Puebla, que se mantuvo en una coalición del PAN con partidos de izquierda y locales, presentó la misma historia. Todo ello nos permite observar que el incrementó en los niveles de violencia dentro de los estados de la República poco tuvo que ver con el tipo de transición que hubo en 2016.

Para enfatizar aún más este último punto, debemos considerar que varios de los estados que señala Excélsior en su nota son estados que para el período de 1997-2017 han tenido una tasa de averiguaciones de homicidio doloso por encima de la tasa promedio a nivel nacional (la cual es de 14.7 homicidios por cada 100 mil habitantes). Baja California, Chihuahua, Durango, Nayarit y Quintana Roo -todos ellos mencionados en la nota de Excélsior-, no sólo comparten haber optado por la alternancia en 2016, sino que en ese período tuvieron una tasa promedio por encima del nivel de violencia en todo el país. Pero lo mismo ocurre con otros estados gobernados por el PRI y su aliado el PVEM, omitidos por Excélsior, como: Chiapas, Colima, Guerrero, el Estado de México, Sinaloa y Sonora. Y esto también se repite en otros estados gobernados por el PRD como Michoacán y Morelos. Es
decir, sobresalir en los niveles de violencia no es cuestión de un solo año, ni de un solo partido, ni de una coalición en específico.


4. No pensar contrafactualmente

¿Qué es lo que hace que suba la violencia? De acuerdo con Excélsior, esto sucede cuando se da la alternancia a nivel gobernador. Específicamente, cuando de tener un gobernador príista, un estado pasa a tener un gobernador panista o perredista. Pero para que esto fuera cierto, entonces ningún estado que haya continuado con un gobierno príista debería tener un incremento significativo en sus niveles de violencia.

No obstante, cuando analizamos el cambio en la tasa de averiguaciones previas por homicidio doloso con las distintas alternancias en las gubernaturas durante el sexenio de Enrique Peña Nieto, no podemos concluir de manera definitiva que el cambio se dé hacia un solo sentido. Es decir, no existe un patrón definido con base en el cual podamos asegurar que la alternancia (o la continuidad) sea la causa en el incremento de la violencia.

De hecho, cualquier administración que siguió a una administración priista, aún si continuó en manos del PRI, sufrió en promedio un aumento de la violencia en su primer año de gobierno. En promedio cuando una gubernatura pasó de manos del PAN al PRI, la tasa de averiguaciones previas por homicidio doloso aumentó en 2.5%. Cuando pasó de manos del PRD al PRI, esta misma tasa aumentó en 5.2%.

Los casos donde la violencia bajó en promedio en el año siguiente a la elección son pocos y la historia de éxito no se mantuvo por mucho tiempo. En 2012 Graco Ramírez sucedió a Marco Antonio Adame como gobernador de Morelos. Ese año fue especialmente violento para Morelos, alcanzando una tasa de 46.6 homicidios por cada 100 mil habitantes. El año siguiente la tasa se redujo a 31.8 y continuó su descenso hasta 2015. Sin embargo, en 2016 regresó a una tasa de 31.7 y en 2017 de 30.9.

De hecho, si sólo observamos las transiciones que hubo en 2016, lo que intentó hacer Excélsior, en todas aumentó la tasa de homicidios el año siguiente, continuando con la tendencia desde 2015. El mayor aumento fue en los estados que pasaron de ser gobernados por el PAN a ser gobernados por el PRI, pues sufrieron un incremento de una tasa promedio de 31.9 a 44.7 averiguaciones de homicidio por cada 100 mil habitantes. De manera inversa, los estados que tuvieron una alternancia de PRI a PAN pasaron de tener una tasa promedio de 18.1 a 23.1 averiguaciones previas por homicidio por cada 100 mil habitantes. Los que se quedaron en manos del PRI aumentaron su tasa de 18.6 a 23.8 averiguaciones por homicidio por cada 100 mil habitantes.

5. Quedarte sólo con aquello que es favorable a tu hipótesis

El argumento implícito del Excélsior es obvio: la alternancia respecto al PRI genera más violencia. Aunque, como ya hemos visto en puntos anteriores, esta afirmación no se sostiene; esto no impide a los autores utilizar las tasas de delito más impactantes para persuadir a los lectores que su hipótesis es cierta.

Sin embargo, realmente terminan por incurrir en un error básico de la investigación científica: omitir la evidencia que rechaza nuestra hipótesis. Y esto se debe a que la nota del Excélsior solo presta atención a aquellos delitos con tasas que muestran un incremento sustancial a partir de la entrada de gobernadores no príistas.

Pero la realidad es otra, pues cuando se analizan otros delitos distintos a los observados por Excélsior (homicidios, secuestros y extorsiones), encontramos aún más evidencia que confirma que no tratamos con un fenómeno que sólo haya ocurrido en estados en donde ahora gobierna la oposición.

Todos los tipos de cambio de gobierno que hubo en 2016 experimentaron un aumento en la tasa de robos con violencia al año siguiente. Por ejemplo, los estados que continuaron en manos panistas pasaron de una tasa de 135.6 averiguaciones por robo con violencia a 213.3 por cada 100 mil habitantes. Los que pasaron del PAN al PRI vieron un aumento de su tasa de 93.8 a 154.1 averiguaciones por robo con violencia por cada 100 mil habitantes.

En el caso de las averiguaciones por violación, aumentaron en los casos donde se mantuvieron en manos del mismo partido (PAN-PAN y PRI-PRI), y en los casos cuando pasaron del PRI al PAN, pasando de 10 averiguaciones por violación a 11.49 por cada 100 mil habitantes. Pero se redujeron cuando pasaron de ser gobernados por el PAN al PRI, o por una Coalición del PAN-PRD al PRI, siendo ésta la mayor caída pasando de una tasa de 12.6 a 9.5 averiguaciones por violación por cada 100 mil habitantes.

Si analizamos el secuestro y la extorsión por tipo de transición en 2016, vemos que aumentaron en casi todos los casos, excepto en el caso de PAN a PRI. Donde prácticamente se mantuvo igual la tasa.

Además de todo lo anterior, existe un problema más esencial: los datos del SNSP miden averiguaciones previas, no delitos. Es decir, los datos que se obtienen de esta fuente realmente son denuncias interpuestas, que tal como pueden ser una aproximación a los delitos que ocurren en el país, también pueden ser aproximación de otras cosas como confianza en autoridades o transparencia de información.

De hecho, en lo que se refiere a homicidios, las averiguaciones previas suelen subestimar su verdadera cifra. Esto se debe a que, al ser averiguaciones, estas no calculan adecuadamente el número de víctimas. Es decir, nos brinda un conteo de investigaciones, no de cuerpos.

Para futuros ejercicios

El análisis de Excélsior se equivocó al no realizar una comparación exhaustiva entre todos los estados de la República a lo largo del tiempo, pues se enfoca exclusivamente en un solo período (de 2016 a 2017). Por ello, la nota tampoco tomó en cuenta la tendencia al alza en los niveles de violencia que desde 2015 se empezó a vislumbrar en el país. Asimismo, el análisis solo se enfocó en los crímenes con cambios más impactantes, pero omitió otros delitos como violaciones o robos con violencia. Además, el análisis del Excélsior no consideró lo que sucedió con las tasas de violencia estatales en otros años distintos al período 2016-2017 con otro tipo de transiciones (De PAN a PRI, de PRI a PRI, etc.) en donde la violencia también aumentó.

Todos estos errores fueron encontrados en una nota de no más de una cuartilla, lo cual nos habla de qué tan fácil es caer en ellos. Con miras hacia el rigor, intentemos implementar y respetar las siguientes prácticas cada que realicemos un ejercicio analítico:
• Presentar datos en tasas y no en totales.
• Estudiar el comportamiento de los datos (sus tendencias) en un período amplio.
• Determinar si el comportamiento de los datos sólo se desarrolla cuando se presentan ciertos atributos, o si es independiente de éstos.
• Ser exhaustivos, agotar cualquier evidencia que pueda desacreditar nuestra hipótesis.
• Utilizar contrafactuales y siempre pensar cómo podríamos asegurarnos de que nuestras conclusiones no estén sesgadas.

Nota metodológica:

Se utilizaron los datos del SESNSP para la serie estatal desde 1997 hasta su última actualización en noviembre de 2017 anualizados. Para calcular las tasas utilizamos las proyecciones poblacionales de CONAPO.

Puedes descargar la base de datos aquí.

Close
Comentarios